↑

【菩提树AI每日早报】2026年6月28日

PromptTree阅读 2

2026/06/28 08:07

OpenAISolTerraLunaGPT-5.6AnthropicClaude Mythos 5DeepSeekDSpark它石智航人形机器人HappyHorse光谷具身AI填志愿Sakana AIClaudeGPTGemini

1. OpenAI发布GPT-5.6三档模型（Sol/Terra/Luna）； 2. 美国政府解禁Claude Mythos 5； 3. DeepSeek联合北大发布DSpark推理加速框架； 4. 它石智航100台A系列机器人集体入驻安波福工厂； 5. 湖北成立中国光谷具身智能产教融合联盟，吉林吉翼智能发布全球首款规模制造业质检机器人"质检家"； 6. 千问AI填志愿累计提供超千万份报告，6月25日单日咨询量涨幅超1000%； 7. Sakana AI与KPMG联合推出CoffeeBench基准：LLM"会推理不等于会赚钱"； 8. CI&T加入Anthropic Claude合作伙伴网络，企业级AI部署从演示转向生产； 9. AI企业级应用进入"分层路由"时代：Claude、GPT、Gemini如何按任务分配模型。

点击收听语音版

1. OpenAI发布GPT-5.6三档模型（Sol/Terra/Luna）

北京时间6月27日凌晨，OpenAI正式发布GPT-5.6系列模型，首次采用天文学命名体系，旗舰版本Sol（太阳）、均衡型Terra（地球）、轻量版Luna（月亮）三款同步面世，但仅以"有限预览"形式向约20家经美国政府审批的合作企业开放，OpenAI正与政府合作争取未来几周内全面发布。GPT-5.6 Sol在Terminal-Bench 2.1编程测试ultra模式下跑出91.9%得分，刷新所有已公开模型最高分；max模式亦有88.8%，超过Anthropic两周前刚发布的Claude Mythos 5（88.0%），单凭该数字即已超越Anthropic两个最新旗舰的全部分数。Sol在ExploitBench网络安全评估中以约三分之一的输出token消耗便打平Mythos Preview，CTF夺旗赛命中率高达96.7%几乎触顶；GeneBench v1长周期基因组学测试中也以更少标记数取得比GPT-5.5更优结果。

价格方面，Sol输入5美元（约34元人民币）、输出30美元（约204元人民币）每百万token，与上一代GPT-5.5同价但能力跃升一代；Terra砍半至2.5美元/15美元每百万token，OpenAI直接定位为"GPT-5.5级别能力、一半价格"，在Terminal-Bench上拿到82.5%与Claude Fable 5持平；Luna压至1美元/6美元每百万token，只有GPT-5.5价格的五分之一，主打批量摘要、文本分类等高并发低延迟场景。GPT-5.6还引入更可预测的提示缓存机制，支持显式缓存断点与30分钟最低缓存有效期，缓存写入按未缓存输入价格的1.25倍计费、读取继续享90%折扣。

技术层面，OpenAI在GPT-5.6中引入两项新机制：max reasoning effort（最大推理强度）允许模型用更长推理链处理复杂任务；ultra mode则将任务拆分、由多个子智能体并行处理再汇总结果——OpenAI表示模型自己完成拆解和协调，开发者只需提需求，与Anthropic的Agent Teams需要人来设计协作方式形成本质区别。Terminal-Bench上的SOTA成绩正是ultra模式跑出来的。

OpenAI为GPT-5.6系列配置了分级防护体系，能力越强防护越严，目标是在压制攻击性用途的同时保留代码审查、漏洞研究等合法场景。生成阶段引入实时分类器，对高风险内容检测拦截，必要时由更强模型复核；自动化红队演练投入超70万个A100 GPU小时，重点寻找通用越狱方法，并辅以专家人工测试。准备框架评估显示Sol未达"关键"级别，在Chromium和Firefox测试中能识别漏洞和利用原语但未自主完成完整攻击链。7月起Sol还将通过Cerebras面向部分客户部署，生成速度最高可达每秒750个token。

但所有精心编排的技术叙事与商业叙事都被"仅限20家审批企业"这条线架在半空。OpenAI选择了一条与Anthropic完全不同的路：Anthropic被事后紧急关停，OpenAI被事前预审批。Altman在内部备忘录中直言"这不是我们偏好的长期模式"，但眼下只能配合。在6月14日加拿大总理Mark Carney公开提出AI供应链集中度风险之后，日本、韩国、欧盟，所有非美国实体在BIS文件里一律被挡在门外。多国政府已陆续将"美国AI API随时可能中断供应"纳入敏感应用采购风险评估，AI的供应链新边界正在形成。

2. 美国政府解禁Claude Mythos 5，100家美国企业获准使用，外籍员工同步恢复访问

美东时间6月26日，美国商务部长Howard Lutnick正式致信Anthropic，宣布解除对Claude Mythos 5模型的禁令，批准其向超过100家"可信赖合作伙伴"恢复访问权限。这份名单含金量极高，包括微软、摩根大通、沃尔玛、礼来以及美国国防部、NASA、能源部、国务院等关键联邦机构。Anthropic首席计算官Tom Brown代表公司签收。同系列的另一款模型Fable 5仍处于政府管控之下，仅特定使用场景可获准接入——Fable 5在禁令前被广泛发布、据称拥有更完善的安全防护机制，但它至今还没完全放开，背后是"顶级智能到底该怎么管"这个时代大难题。

本次解禁在合规细节上有重要突破：获批机构内的外籍员工也能使用，连Anthropic自己的外籍员工都恢复了访问权。这说明监管逻辑正从"简单粗暴禁外籍"转向"精细化风控"——客户是谁、部署在哪里、谁能接触、怎么审计，这些问题比模型本身强多少更要命。Anthropic在X平台公开回应："自6月12日以来，我们一直与美国政府密切合作，恢复Claude Mythos 5和Fable 5的访问权限。今天，政府通知我们可以将Mythos 5重新部署到运营和维护关键基础设施的美国组织。我们正在迅速恢复这些组织的访问权限，并继续与政府合作扩大访问范围。"

时间线拉直可清晰看到三步：6月12日美国政府要求限制访问，Anthropic一刀切全关；随后两周双方密集沟通，Anthropic拿出安全证明；6月26日商务部长批准名单内机构恢复Mythos 5使用——这并非凯旋，只是一张临时通行证。Anthropic先把最值钱的客户——大企业、政府部门、国家实验室、安全机构拿了回来，这批客户的重要性远超普通用户多刷几句prompt。

此事释放的信号极为冷峻：以后顶级模型发布除了能力、价格、上下文，还得加上第四个指标——准入资格。以前比谁跑得快，现在还要比谁能"合法地跑"。Mythos事件的核心意义在于，它暴露了一个根本性的难题——AI安全防护工具与攻击工具的边界在哪里？Mythos定位为"最强的网络安全模型"，意味着它能发现并利用软件漏洞；但同样的能力如果落入网络犯罪者手中，就能自动生成恶意代码、执行勒索攻击，这正是特朗普政府要求下架的根本原因。问题的复杂性在于，安全研究人员也需要这样的模型来测试防御体系——如果所有网络安全AI工具都被封锁，谁来帮助企业和机构发现漏洞？这种"既要防范风险、又要利用能力"的矛盾贯穿整个AI治理领域。

更深层的问题在于，即便Anthropic声称Mythos 5拥有更强的安全防护机制（这也是Fable 5未被下架的原因之一），但安全研究人员已经证明这些防护可以被绕过。如果连Anthropic自己的模型都无法完全防止"越狱"攻击，那么所谓的"安全保障措施"究竟有多可靠？从"全面封禁"到"有限解禁"的转变，揭示了AI模型监管正在走向"灰度发布"模式——不是简单的"开/关"，而是基于具体场景、用户身份和使用目的的精细化管控。这种模式的副作用同样明显：它意味着每个前沿AI模型都可能面临类似的"逐客审批"——就像OpenAI的GPT-5.6一样，未来几乎所有顶级模型的发布都将由政府的"客户-by-客户"审核来决定。

3. DeepSeek联合北大发布DSpark推理加速框架，单用户生成速度提升60%-85%已部署V4线上

6月27日，DeepSeek联合北京大学正式发布DSpark推理加速框架，通过半自回归生成+置信度调度，使单用户生成速度提升60%-85%。该框架已部署于DeepSeek-V4-Flash与DeepSeek-V4-Pro预览版服务引擎中，在真实用户流量下扛着生产压力运行，相比此前生产环境的单token推测解码基线MTP-1，在同等吞吐量水平下可将单用户生成速度提升60%至85%。相关论文、训练代码等已在GitHub开源。

大语言模型生成文本时采用自回归方式，每生成一个新token都需要一次完整的前向传播，推理延迟随输出长度线性增长，这是目前AI对话系统响应偏慢的核心原因。推测解码技术提供了一条解决路径：用轻量级小模型快速生成若干候选token，再由完整规模的大模型通过单次并行前向传播批量验证。但推测解码的实际加速效果受两个因素制约：候选生成质量、验证阶段对目标模型计算资源的占用。主流方案分为两派，自回归式草稿模型（如Eagle3）逐token串行生成候选序列，接受率高但生成延迟随候选长度线性增长；并行式草稿模型（如DFlash）一次性产出全部候选token，生成延迟几乎与候选长度无关，但接受率随位置后移迅速衰减。DSpark的设计围绕这两个瓶颈展开。

在候选生成阶段，DSpark采用半自回归架构：计算量较大的并行主干网络（基于DFlash改进）一次性产出全部候选位置的隐藏状态和基础logits，随后由一个轻量级顺序模块逐token注入前缀依赖信息。该顺序模块提供两种实现——仅依赖前一个token的马尔可夫头，以及通过循环状态累积完整前缀信息的RNN头。实验表明，两层Transformer深度的DSpark即可在所有测试领域上超过五层DFlash的接受长度，少量自回归依赖的引入在参数效率上优于单纯堆叠并行层。

在验证调度阶段，DSpark引入置信度调度验证机制：模型在每个候选位置输出一个置信度分数，预测该token在给定此前所有token均被接受的条件下的存活概率。硬件感知前缀调度器将验证长度选择建模为全局吞吐量最大化问题——给定一批并发请求及其各位置置信度，结合预先实测的引擎吞吐量曲线，调度器为每个请求动态决定验证多长的候选前缀，优先将目标模型计算资源分配给全局存活概率最高的token。在线生产环境实测中，在V4-Flash引擎上当系统保证单用户生成速度不低于80 token/s时，DSpark的聚合吞吐量相比基线提升51%；当SLA收紧至120 token/s时单token基线已接近运行边界，DSpark在维持可用并发批处理的前提下实现661%的吞吐量优势。在V4-Pro引擎上，35 token/s SLA下DSpark吞吐量提升52%，50 token/s SLA下提升406%。

调度器在系统并发数较低时会分配4至6个token的验证长度以充分利用空闲计算资源，随着并发数上升则平滑缩减验证长度以避免资源争用，表现出负载自适应的验证预算分配能力。DSpark的局限在于即使后缀token最终被调度器截断，并行主干仍需为所有请求生成完整的初始候选块，对于接受率本身较低的复杂查询，这部分草稿计算开销无法回收。目前DeepSeek已在GitHub的DeepSpec项目中开源DSpark、DFlash和Eagle3三种草稿模型的训练代码、评估脚本及模型检查点。从R1震撼硅谷到V4百万上下文普惠，再到今天DSpark把推理速度再拉升60%以上，DeepSeek正系统性地把"开源斩杀线"拉到行业最高位。

4. 它石智航100台A系列机器人集体入驻安波福工厂，摩根士丹利上调2026年中国人形机器人出货预期至5万台

6月26日上海嘉定传来重磅消息：它石智航的具身智能示范项目正式签约落地，首批100台A系列机器人将全天候进驻安波福工厂，覆盖8大生产工艺、33类应用场景、46个核心生产工位。这不是展示、不是试用，而是真刀真枪地替代人工工位。安波福连接器系统亚太区运营总监徐晓莹明确表态：这次落地要打通具身大模型、实景数据、落地场景的完整闭环，给工厂主算账的真生意。它石×安波福100台机器人共同运转，意味着从"体验式展示"升级到"系统性替代"，从单台摆一旁"意思意思"到8大工艺全覆盖，是中国具身智能产业继单机演示、小批量试用之后的"规模化交付"元年节点。

更具说服力的是时间表：2026年百台交付，建成全国首个具身智能工业应用标杆；2027年千台级，向长三角复制推广；2028年万台级产业生态——三年从百台到万台，速度比很多机构去年底的预测快了整整一倍。同日国际顶级投行摩根士丹利更新了中国人形机器人产业研报：2026年出货预期从1月的1.4万台，到5月的2.8万台，再到6月的5万台，半年时间预期涨幅接近两番，同比增幅178%，标志行业正式告别千台级样机时代。大摩分析师原话："走访产业链后发现，真实产业落地速度远远超过年初保守预估，原有测算框架已经跟不上市场需求。"

美国首家人形机器人公司Agility Robotics在纳斯达克敲钟，提出"按小时租用"模式——工厂不用买机器人，按小时租就行。若该模式跑通，将直接改变整个行业商业逻辑：从"卖硬件"变成"卖服务"，从"一次性采购"变成"持续性订阅"。

国内方面，宁德时代生产线已批量落地近百台银河通用Galbot S1人形机器人，全权负责厂区物料转运等重载工序，全程保持7×24小时不间断自主作业，稳定运行时长突破三个月；江西南昌龙旗工厂智元精灵G2人形机器人开启为期六天全程公开透明直播，独立包揽平板全套质检工段工作，设备缺陷识别准确率逼近99.9%，产品型号更换仅需四小时就能投入生产。比亚迪敲定2026年两万台自研人形机器人部署计划，缝纫设备厂商杰克科技拿下两千台机器人采购大单。

资本持续加注赛道，2026年第一季度国内具身智能融资总额突破300亿元，创下行业融资新高。摩根士丹利预判，2050年全球人形机器人市场规模将攀升至5万亿美元。但它石智航CEO陈同庆也泼了冷水："从一台机器人能干活，到一千台机器人能稳定干活，中间还有无数个坎。"现阶段单台设备购置成本等同于两年人工支出，价格下调空间巨大；工业标准化数据仅能支撑基础商用，不足以激活大模型更强智能；机器人体系和工厂原有自动化系统的融合是一大挑战——工厂设备一天允许4%-5%的故障时间，但机器人的要求是连续一个月不能有单点故障。说白了：单点技术已经验证，系统工程才是真正的深水区。谁先解决系统集成问题，谁就有资格掀桌子。

5. 湖北成立中国光谷具身智能产教融合联盟，吉林吉翼智能发布全球首款规模制造业质检机器人"质检家"

6月27日，湖北首个产教融合联盟——中国光谷具身智能产教融合联盟在武汉正式成立，14所高校、31家行业领军企业联合发起，包括武汉大学、武汉理工大学、华中师范大学等高校与东土科技、烽火科技等头部企业。

湖北高校首家具身智能机器人学院在湖北第二师范学院揭牌，中国科学院院士刘胜等出席活动。湖北二师校长郑军当选联盟理事长，由刘胜院士领衔的15名教产研领域领军人物受聘担任理事会专家委员会成员，将为联盟技术方向研判、行业标准研制、科研成果评价等工作提供专业智力支撑。苗疆机器人、乐聚智能、微分智飞等多家行业头部企业为具身智能机器人学院授予"产教融合基地"牌匾。

同在6月27日，吉林长春吉翼智能新品发布会上，全球首款面向规模制造业零部件检测的具身智能机器人"质检家"以柔性七轴仿生机械臂、自研工业视觉系统为核心，攻克汽车线束质检这一行业公认的"珠穆朗玛峰"。发布会现场经南京市石城公证处公证，"质检家"与三名资深质检员同台PK：双方检测准确率均为100%，"质检家"效率超过人工3倍，综合成本下降超30%。更突出的是落地能力：7天全流程部署，支持千台设备同时调度，7×24小时不间断作业。商服机器人"小睦"主打"即装即用、零改造上线"，搭载自研语义及导诊大模型，内置超10万种药品SKU数据库，目前已与吉林大药房达成合作，支持24小时无人值守。

吉翼大模型研发中心总负责人李一同表示："真正的具身智能不是让机器人执行命令，而是让机器人理解意图。"今年年初，吉林省具身智能机器人产业科技创新联合体正式成立，首批33家成员单位覆盖24家产业链重点企业、6所高校、2家科研机构。以产业园为核心联动长智光谷、长新创谷等多个园区，预留2.8平方公里产业承载空间。吉翼拥有4500平方米训练场（亿级投入），可同时支撑100台异构机器人并行作业。从10个月组建到首款产品亮相、从产品立项到交付仅8个月（国内行业平均周期的三分之一到四分之一），中国具身智能的产业化竞速正在多个城市同时展开。

6. 千问AI填志愿累计提供超千万份报告，6月25日单日咨询量涨幅超1000%

千问官方数据显示，截至6月27日千问志愿大模型已为考生和家长免费提供超1000万份高考志愿报告。高考出分期间，千问咨询量连续多日增长超100%，其中6月25日单日咨询量涨幅超过1000%，AI在高压、低容错的高考志愿填报场景中验证了自身办事能力的自然延伸路径——如果AI能够在这种关键决策场景中完成任务，未来进入更多复杂决策场景便具备了基础。

千问事业群总裁吴嘉此前表示，AI办事能力的延伸是水到渠成的过程。从高考志愿填报到未来更多复杂决策场景，技术能力迁移、用户信任建立、数据闭环形成是三个关键支撑。千问AI填志愿在2026年高考服务中已成为现象级应用，验证了国产大模型在C端高并发、低容错场景下的工程化能力。高考志愿场景的复杂度涵盖分数解析、专业匹配、院校层次、就业前景、地域偏好等数十个变量，且每一个决定都会影响考生未来四年的求学路径——AI能在百万用户并发压力下稳定输出结构化建议，意味着大模型的工程化能力已经跨过"可用性"门槛。

7. Sakana AI与KPMG联合推出CoffeeBench基准：LLM"会推理不等于会赚钱"

日本Sakana AI与KPMG联合推出CoffeeBench，一个多智能体经济系统基准，让6家AI公司（2农场+2烘焙商+2零售商）在咖啡供应链中自主经营90天，目标各自最大化净利润。评估模型扮演其中一家烘焙商，其余5家由固定参考模型控制。核心设定模拟商品级和精品级两条并行供应链，农场生产生豆、烘焙商加工、零售商卖给消费者；每家公司起步资金1.5万美元，每天有经营成本（烘焙商30美元/天），库存按0.5%日损耗，交易采用net-30信用账期。Agent可用工具包括发消息议价、挂牌出售、出价采购、成交签约、付款结算，不限制交易角色，理论上可以跨层倒卖甚至循环交易。90天累积的交互历史会超出模型上下文窗口，论文用160k token截断加中间摘要策略管理记忆。

结果速览：GPT-5.5净赚3109美元排名第一，Claude Opus 4.7净赚2782美元紧随其后；中间梯队Claude Sonnet 4.6、Gemini 3.1 Pro、GLM-5.1均实现正收益；所有LLM都跑赢了躺平基线（-2765美元）和基于规则的无通信基线（-1931美元）。有趣的是，GLM-5.1营收最高（16962美元），但净利仅排第五，赚得多不等于利润高。GPT-5.5发了140条消息几乎不打给同行竞争者，沟通火力全集中在上下游。最惊艳的发现来自Claude Haiku 4.5：它平均有40天只调用"等待次日"基本躺着不动，看它的推理链却一切正常——"业务运转良好""现金流稳健""剩余64天将聚焦执行既定策略"，分析井井有条然后选择什么也不做，作者将这种现象称为idle-drift，可能是长上下文积累导致行为偏移或过度保守的动作选择所致。

最强GPT-5.5也仅达估算天花板的约13%。单次运行约1000次工具调用、耗时8小时、API成本约250美元——天花板还远，留给后来者空间巨大。CoffeeBench说明：推理好不等于能赚钱。从"Prompt 写得好"到"商业世界跑得转"之间的距离，是当前Agent技术落地最关键的一课。

8. CI&T加入Anthropic Claude合作伙伴网络，企业级AI部署从演示转向生产

6月28日，CI&T正式加入Anthropic的Claude合作伙伴网络，同期公布有机营收增长率达23.2%。该合作并非品牌联名，已启动超1000名AI工程师的Claude认证，且Claude已在其CI&T FLOW体系内大规模运行，聚焦金融服务、零售及消费品行业的定制化AI落地解决方案。CI&T全球11国AI开发人员总数超8000人，约20%新销售订单采用AI驱动定价模式；第一季度营收1.366亿美元，第二季度营收指引不低于1.4亿美元，全年营收预期5.56亿至5.75亿美元；第一季度调整后EBITDA利润率15.2%，汇率中性口径下17.4%，全年目标区间17%-19%。

当前企业级AI讨论重心已从演示转向实际部署，GitHub Copilot取消统一费率订阅改为按Token计费，推动企业从沙盒实验转向生产落地。CI&T正尝试摆脱纯人力外包服务商定位，将业务规模与自有知识产权解决方案、方法论驱动的交付流程结合，若该模式跑通将提升复用率、交付速度与定价权，其估值有脱离传统服务企业倍数区间的可能。但仅获得Claude合作伙伴身份不足以支撑估值抬升——若增长仅依赖人力扩张而非运营杠杆提升，估值很难大幅上行。后续关键验证信号包括：第二季度营收贴近1.4亿美元指引、全年营收推进符合预期、EBITDA利润率向17%-19%目标区间靠拢；更多Claude相关项目完成从试点到生产落地的转化。

Anthropic的合作伙伴网络扩张速度反映其商业化战略：从企业级入口渗透到垂直行业解决方案。微软、摩根大通、沃尔玛、礼来、美国国防部、NASA等机构在Mythos 5解禁名单中占据核心位置，意味着前沿AI能力与关键基础设施开始深度绑定。对全球企业服务市场而言，"AI+垂直行业"模式已经过了PPT阶段，正在进入"客户-by-客户、场景-by-场景"的实操落地期。

9. AI企业级应用进入"分层路由"时代：Claude、GPT、Gemini如何按任务分配模型

随着Claude Sonnet 4.6、Claude Opus 4.8、GPT-5.5、Gemini 3.1 Pro等多档模型并存，企业级AI应用已从"一刀切选最强"转向按任务难度、置信度、成本上限动态路由。简而言之：简单任务用便宜模型跑量，关键任务用贵模型保质量，中间地带交给Sonnet级别的模型兜底。

Anthropic官方主力分层已清晰：Claude Sonnet 4.6适合日常编码、分析和内容工作，Claude Opus 4.8更偏复杂推理和长程agentic coding，Fable 5作为前沿对比层专攻最高难度任务。OpenAI主力是GPT-5.5，模型越强越不能拿来"整仓库一锅端"——长上下文不是万能钥匙，反而容易把上下文污染、信息混叠、重复扫描等问题一起带进来。X和GitHub上最近围绕Claude Code的讨论有个明显共识：recursive decomposition——先拆任务再让模型各干各的——才能真正省token。

实践上很多团队总结出四步法：第一步先让Claude读地图，不要一上来改代码，目录、入口、依赖、配置、调用链先扫一遍确认项目结构；第二步把问题缩小到单个模块或单条链路，比如认证、账单、任务队列、前端状态，不要让模型同时处理十几个主题；第三步先出方案再动手写，方案阶段只要改动清单、风险点、测试建议；第四步小步执行小步回看，每次只改少量文件，回归测试后再继续。这样做看上去慢一点，实际经常更快，因为少返工。批量分类、标签生成、简单抽取用Haiku这类轻量模型更划算：它的正确用法不是替代所有模型，而是作为前置筛选层或批处理层——先用Haiku判断任务类型、提取基础字段，再把少量复杂样本交给Sonnet或Opus处理。

国内团队用Claude的常见限制不只是访问问题，还包括支付、企业采购、日志留存、数据出境、SLA和合规审批。Anthropic官方对支持地区和销售限制有明确说明，所以很多公司并不是"想不想用"的问题，而是"能不能稳定地纳入生产流程"。这也是为什么业内建议先做统一接入层再谈具体模型。统一入口API（如词元无忧等聚合代理）的价值正在于让Claude、GPT-5.5、Gemini放在同一套接口和账单里跑POC，对采购、技术和研发三方来说这样看成本更直观，也更容易判断哪一层该用更强的模型、哪一层根本不该用最贵的模型。模型路由比模型选择更值得花时间。