点击收听语音版
北京时间6月27日凌晨,OpenAI正式发布GPT-5.6系列模型,首次采用天文学命名体系,旗舰版本Sol(太阳)、均衡型Terra(地球)、轻量版Luna(月亮)三款同步面世,但仅以"有限预览"形式向约20家经美国政府审批的合作企业开放,OpenAI正与政府合作争取未来几周内全面发布。GPT-5.6 Sol在Terminal-Bench 2.1编程测试ultra模式下跑出91.9%得分,刷新所有已公开模型最高分;max模式亦有88.8%,超过Anthropic两周前刚发布的Claude Mythos 5(88.0%),单凭该数字即已超越Anthropic两个最新旗舰的全部分数。Sol在ExploitBench网络安全评估中以约三分之一的输出token消耗便打平Mythos Preview,CTF夺旗赛命中率高达96.7%几乎触顶;GeneBench v1长周期基因组学测试中也以更少标记数取得比GPT-5.5更优结果。
价格方面,Sol输入5美元(约34元人民币)、输出30美元(约204元人民币)每百万token,与上一代GPT-5.5同价但能力跃升一代;Terra砍半至2.5美元/15美元每百万token,OpenAI直接定位为"GPT-5.5级别能力、一半价格",在Terminal-Bench上拿到82.5%与Claude Fable 5持平;Luna压至1美元/6美元每百万token,只有GPT-5.5价格的五分之一,主打批量摘要、文本分类等高并发低延迟场景。GPT-5.6还引入更可预测的提示缓存机制,支持显式缓存断点与30分钟最低缓存有效期,缓存写入按未缓存输入价格的1.25倍计费、读取继续享90%折扣。
技术层面,OpenAI在GPT-5.6中引入两项新机制:max reasoning effort(最大推理强度)允许模型用更长推理链处理复杂任务;ultra mode则将任务拆分、由多个子智能体并行处理再汇总结果——OpenAI表示模型自己完成拆解和协调,开发者只需提需求,与Anthropic的Agent Teams需要人来设计协作方式形成本质区别。Terminal-Bench上的SOTA成绩正是ultra模式跑出来的。
OpenAI为GPT-5.6系列配置了分级防护体系,能力越强防护越严,目标是在压制攻击性用途的同时保留代码审查、漏洞研究等合法场景。生成阶段引入实时分类器,对高风险内容检测拦截,必要时由更强模型复核;自动化红队演练投入超70万个A100 GPU小时,重点寻找通用越狱方法,并辅以专家人工测试。准备框架评估显示Sol未达"关键"级别,在Chromium和Firefox测试中能识别漏洞和利用原语但未自主完成完整攻击链。7月起Sol还将通过Cerebras面向部分客户部署,生成速度最高可达每秒750个token。
但所有精心编排的技术叙事与商业叙事都被"仅限20家审批企业"这条线架在半空。OpenAI选择了一条与Anthropic完全不同的路:Anthropic被事后紧急关停,OpenAI被事前预审批。Altman在内部备忘录中直言"这不是我们偏好的长期模式",但眼下只能配合。在6月14日加拿大总理Mark Carney公开提出AI供应链集中度风险之后,日本、韩国、欧盟,所有非美国实体在BIS文件里一律被挡在门外。多国政府已陆续将"美国AI API随时可能中断供应"纳入敏感应用采购风险评估,AI的供应链新边界正在形成。
美东时间6月26日,美国商务部长Howard Lutnick正式致信Anthropic,宣布解除对Claude Mythos 5模型的禁令,批准其向超过100家"可信赖合作伙伴"恢复访问权限。这份名单含金量极高,包括微软、摩根大通、沃尔玛、礼来以及美国国防部、NASA、能源部、国务院等关键联邦机构。Anthropic首席计算官Tom Brown代表公司签收。同系列的另一款模型Fable 5仍处于政府管控之下,仅特定使用场景可获准接入——Fable 5在禁令前被广泛发布、据称拥有更完善的安全防护机制,但它至今还没完全放开,背后是"顶级智能到底该怎么管"这个时代大难题。
本次解禁在合规细节上有重要突破:获批机构内的外籍员工也能使用,连Anthropic自己的外籍员工都恢复了访问权。这说明监管逻辑正从"简单粗暴禁外籍"转向"精细化风控"——客户是谁、部署在哪里、谁能接触、怎么审计,这些问题比模型本身强多少更要命。Anthropic在X平台公开回应:"自6月12日以来,我们一直与美国政府密切合作,恢复Claude Mythos 5和Fable 5的访问权限。今天,政府通知我们可以将Mythos 5重新部署到运营和维护关键基础设施的美国组织。我们正在迅速恢复这些组织的访问权限,并继续与政府合作扩大访问范围。"
时间线拉直可清晰看到三步:6月12日美国政府要求限制访问,Anthropic一刀切全关;随后两周双方密集沟通,Anthropic拿出安全证明;6月26日商务部长批准名单内机构恢复Mythos 5使用——这并非凯旋,只是一张临时通行证。Anthropic先把最值钱的客户——大企业、政府部门、国家实验室、安全机构拿了回来,这批客户的重要性远超普通用户多刷几句prompt。
此事释放的信号极为冷峻:以后顶级模型发布除了能力、价格、上下文,还得加上第四个指标——准入资格。以前比谁跑得快,现在还要比谁能"合法地跑"。Mythos事件的核心意义在于,它暴露了一个根本性的难题——AI安全防护工具与攻击工具的边界在哪里?Mythos定位为"最强的网络安全模型",意味着它能发现并利用软件漏洞;但同样的能力如果落入网络犯罪者手中,就能自动生成恶意代码、执行勒索攻击,这正是特朗普政府要求下架的根本原因。问题的复杂性在于,安全研究人员也需要这样的模型来测试防御体系——如果所有网络安全AI工具都被封锁,谁来帮助企业和机构发现漏洞?这种"既要防范风险、又要利用能力"的矛盾贯穿整个AI治理领域。
更深层的问题在于,即便Anthropic声称Mythos 5拥有更强的安全防护机制(这也是Fable 5未被下架的原因之一),但安全研究人员已经证明这些防护可以被绕过。如果连Anthropic自己的模型都无法完全防止"越狱"攻击,那么所谓的"安全保障措施"究竟有多可靠?从"全面封禁"到"有限解禁"的转变,揭示了AI模型监管正在走向"灰度发布"模式——不是简单的"开/关",而是基于具体场景、用户身份和使用目的的精细化管控。这种模式的副作用同样明显:它意味着每个前沿AI模型都可能面临类似的"逐客审批"——就像OpenAI的GPT-5.6一样,未来几乎所有顶级模型的发布都将由政府的"客户-by-客户"审核来决定。
6月27日,DeepSeek联合北京大学正式发布DSpark推理加速框架,通过半自回归生成+置信度调度,使单用户生成速度提升60%-85%。该框架已部署于DeepSeek-V4-Flash与DeepSeek-V4-Pro预览版服务引擎中,在真实用户流量下扛着生产压力运行,相比此前生产环境的单token推测解码基线MTP-1,在同等吞吐量水平下可将单用户生成速度提升60%至85%。相关论文、训练代码等已在GitHub开源。
大语言模型生成文本时采用自回归方式,每生成一个新token都需要一次完整的前向传播,推理延迟随输出长度线性增长,这是目前AI对话系统响应偏慢的核心原因。推测解码技术提供了一条解决路径:用轻量级小模型快速生成若干候选token,再由完整规模的大模型通过单次并行前向传播批量验证。但推测解码的实际加速效果受两个因素制约:候选生成质量、验证阶段对目标模型计算资源的占用。主流方案分为两派,自回归式草稿模型(如Eagle3)逐token串行生成候选序列,接受率高但生成延迟随候选长度线性增长;并行式草稿模型(如DFlash)一次性产出全部候选token,生成延迟几乎与候选长度无关,但接受率随位置后移迅速衰减。DSpark的设计围绕这两个瓶颈展开。
在候选生成阶段,DSpark采用半自回归架构:计算量较大的并行主干网络(基于DFlash改进)一次性产出全部候选位置的隐藏状态和基础logits,随后由一个轻量级顺序模块逐token注入前缀依赖信息。该顺序模块提供两种实现——仅依赖前一个token的马尔可夫头,以及通过循环状态累积完整前缀信息的RNN头。实验表明,两层Transformer深度的DSpark即可在所有测试领域上超过五层DFlash的接受长度,少量自回归依赖的引入在参数效率上优于单纯堆叠并行层。
在验证调度阶段,DSpark引入置信度调度验证机制:模型在每个候选位置输出一个置信度分数,预测该token在给定此前所有token均被接受的条件下的存活概率。硬件感知前缀调度器将验证长度选择建模为全局吞吐量最大化问题——给定一批并发请求及其各位置置信度,结合预先实测的引擎吞吐量曲线,调度器为每个请求动态决定验证多长的候选前缀,优先将目标模型计算资源分配给全局存活概率最高的token。在线生产环境实测中,在V4-Flash引擎上当系统保证单用户生成速度不低于80 token/s时,DSpark的聚合吞吐量相比基线提升51%;当SLA收紧至120 token/s时单token基线已接近运行边界,DSpark在维持可用并发批处理的前提下实现661%的吞吐量优势。在V4-Pro引擎上,35 token/s SLA下DSpark吞吐量提升52%,50 token/s SLA下提升406%。
调度器在系统并发数较低时会分配4至6个token的验证长度以充分利用空闲计算资源,随着并发数上升则平滑缩减验证长度以避免资源争用,表现出负载自适应的验证预算分配能力。DSpark的局限在于即使后缀token最终被调度器截断,并行主干仍需为所有请求生成完整的初始候选块,对于接受率本身较低的复杂查询,这部分草稿计算开销无法回收。目前DeepSeek已在GitHub的DeepSpec项目中开源DSpark、DFlash和Eagle3三种草稿模型的训练代码、评估脚本及模型检查点。从R1震撼硅谷到V4百万上下文普惠,再到今天DSpark把推理速度再拉升60%以上,DeepSeek正系统性地把"开源斩杀线"拉到行业最高位。
6月26日上海嘉定传来重磅消息:它石智航的具身智能示范项目正式签约落地,首批100台A系列机器人将全天候进驻安波福工厂,覆盖8大生产工艺、33类应用场景、46个核心生产工位。这不是展示、不是试用,而是真刀真枪地替代人工工位。安波福连接器系统亚太区运营总监徐晓莹明确表态:这次落地要打通具身大模型、实景数据、落地场景的完整闭环,给工厂主算账的真生意。它石×安波福100台机器人共同运转,意味着从"体验式展示"升级到"系统性替代",从单台摆一旁"意思意思"到8大工艺全覆盖,是中国具身智能产业继单机演示、小批量试用之后的"规模化交付"元年节点。
更具说服力的是时间表:2026年百台交付,建成全国首个具身智能工业应用标杆;2027年千台级,向长三角复制推广;2028年万台级产业生态——三年从百台到万台,速度比很多机构去年底的预测快了整整一倍。同日国际顶级投行摩根士丹利更新了中国人形机器人产业研报:2026年出货预期从1月的1.4万台,到5月的2.8万台,再到6月的5万台,半年时间预期涨幅接近两番,同比增幅178%,标志行业正式告别千台级样机时代。大摩分析师原话:"走访产业链后发现,真实产业落地速度远远超过年初保守预估,原有测算框架已经跟不上市场需求。"
美国首家人形机器人公司Agility Robotics在纳斯达克敲钟,提出"按小时租用"模式——工厂不用买机器人,按小时租就行。若该模式跑通,将直接改变整个行业商业逻辑:从"卖硬件"变成"卖服务",从"一次性采购"变成"持续性订阅"。
国内方面,宁德时代生产线已批量落地近百台银河通用Galbot S1人形机器人,全权负责厂区物料转运等重载工序,全程保持7×24小时不间断自主作业,稳定运行时长突破三个月;江西南昌龙旗工厂智元精灵G2人形机器人开启为期六天全程公开透明直播,独立包揽平板全套质检工段工作,设备缺陷识别准确率逼近99.9%,产品型号更换仅需四小时就能投入生产。比亚迪敲定2026年两万台自研人形机器人部署计划,缝纫设备厂商杰克科技拿下两千台机器人采购大单。
资本持续加注赛道,2026年第一季度国内具身智能融资总额突破300亿元,创下行业融资新高。摩根士丹利预判,2050年全球人形机器人市场规模将攀升至5万亿美元。但它石智航CEO陈同庆也泼了冷水:"从一台机器人能干活,到一千台机器人能稳定干活,中间还有无数个坎。"现阶段单台设备购置成本等同于两年人工支出,价格下调空间巨大;工业标准化数据仅能支撑基础商用,不足以激活大模型更强智能;机器人体系和工厂原有自动化系统的融合是一大挑战——工厂设备一天允许4%-5%的故障时间,但机器人的要求是连续一个月不能有单点故障。说白了:单点技术已经验证,系统工程才是真正的深水区。谁先解决系统集成问题,谁就有资格掀桌子。
6月27日,湖北首个产教融合联盟——中国光谷具身智能产教融合联盟在武汉正式成立,14所高校、31家行业领军企业联合发起,包括武汉大学、武汉理工大学、华中师范大学等高校与东土科技、烽火科技等头部企业。
湖北高校首家具身智能机器人学院在湖北第二师范学院揭牌,中国科学院院士刘胜等出席活动。湖北二师校长郑军当选联盟理事长,由刘胜院士领衔的15名教产研领域领军人物受聘担任理事会专家委员会成员,将为联盟技术方向研判、行业标准研制、科研成果评价等工作提供专业智力支撑。苗疆机器人、乐聚智能、微分智飞等多家行业头部企业为具身智能机器人学院授予"产教融合基地"牌匾。
同在6月27日,吉林长春吉翼智能新品发布会上,全球首款面向规模制造业零部件检测的具身智能机器人"质检家"以柔性七轴仿生机械臂、自研工业视觉系统为核心,攻克汽车线束质检这一行业公认的"珠穆朗玛峰"。发布会现场经南京市石城公证处公证,"质检家"与三名资深质检员同台PK:双方检测准确率均为100%,"质检家"效率超过人工3倍,综合成本下降超30%。更突出的是落地能力:7天全流程部署,支持千台设备同时调度,7×24小时不间断作业。商服机器人"小睦"主打"即装即用、零改造上线",搭载自研语义及导诊大模型,内置超10万种药品SKU数据库,目前已与吉林大药房达成合作,支持24小时无人值守。
吉翼大模型研发中心总负责人李一同表示:"真正的具身智能不是让机器人执行命令,而是让机器人理解意图。"今年年初,吉林省具身智能机器人产业科技创新联合体正式成立,首批33家成员单位覆盖24家产业链重点企业、6所高校、2家科研机构。以产业园为核心联动长智光谷、长新创谷等多个园区,预留2.8平方公里产业承载空间。吉翼拥有4500平方米训练场(亿级投入),可同时支撑100台异构机器人并行作业。从10个月组建到首款产品亮相、从产品立项到交付仅8个月(国内行业平均周期的三分之一到四分之一),中国具身智能的产业化竞速正在多个城市同时展开。
千问官方数据显示,截至6月27日千问志愿大模型已为考生和家长免费提供超1000万份高考志愿报告。高考出分期间,千问咨询量连续多日增长超100%,其中6月25日单日咨询量涨幅超过1000%,AI在高压、低容错的高考志愿填报场景中验证了自身办事能力的自然延伸路径——如果AI能够在这种关键决策场景中完成任务,未来进入更多复杂决策场景便具备了基础。
千问事业群总裁吴嘉此前表示,AI办事能力的延伸是水到渠成的过程。从高考志愿填报到未来更多复杂决策场景,技术能力迁移、用户信任建立、数据闭环形成是三个关键支撑。千问AI填志愿在2026年高考服务中已成为现象级应用,验证了国产大模型在C端高并发、低容错场景下的工程化能力。高考志愿场景的复杂度涵盖分数解析、专业匹配、院校层次、就业前景、地域偏好等数十个变量,且每一个决定都会影响考生未来四年的求学路径——AI能在百万用户并发压力下稳定输出结构化建议,意味着大模型的工程化能力已经跨过"可用性"门槛。
日本Sakana AI与KPMG联合推出CoffeeBench,一个多智能体经济系统基准,让6家AI公司(2农场+2烘焙商+2零售商)在咖啡供应链中自主经营90天,目标各自最大化净利润。评估模型扮演其中一家烘焙商,其余5家由固定参考模型控制。核心设定模拟商品级和精品级两条并行供应链,农场生产生豆、烘焙商加工、零售商卖给消费者;每家公司起步资金1.5万美元,每天有经营成本(烘焙商30美元/天),库存按0.5%日损耗,交易采用net-30信用账期。Agent可用工具包括发消息议价、挂牌出售、出价采购、成交签约、付款结算,不限制交易角色,理论上可以跨层倒卖甚至循环交易。90天累积的交互历史会超出模型上下文窗口,论文用160k token截断加中间摘要策略管理记忆。
结果速览:GPT-5.5净赚3109美元排名第一,Claude Opus 4.7净赚2782美元紧随其后;中间梯队Claude Sonnet 4.6、Gemini 3.1 Pro、GLM-5.1均实现正收益;所有LLM都跑赢了躺平基线(-2765美元)和基于规则的无通信基线(-1931美元)。有趣的是,GLM-5.1营收最高(16962美元),但净利仅排第五,赚得多不等于利润高。GPT-5.5发了140条消息几乎不打给同行竞争者,沟通火力全集中在上下游。最惊艳的发现来自Claude Haiku 4.5:它平均有40天只调用"等待次日"基本躺着不动,看它的推理链却一切正常——"业务运转良好""现金流稳健""剩余64天将聚焦执行既定策略",分析井井有条然后选择什么也不做,作者将这种现象称为idle-drift,可能是长上下文积累导致行为偏移或过度保守的动作选择所致。
最强GPT-5.5也仅达估算天花板的约13%。单次运行约1000次工具调用、耗时8小时、API成本约250美元——天花板还远,留给后来者空间巨大。CoffeeBench说明:推理好不等于能赚钱。从"Prompt 写得好"到"商业世界跑得转"之间的距离,是当前Agent技术落地最关键的一课。
6月28日,CI&T正式加入Anthropic的Claude合作伙伴网络,同期公布有机营收增长率达23.2%。该合作并非品牌联名,已启动超1000名AI工程师的Claude认证,且Claude已在其CI&T FLOW体系内大规模运行,聚焦金融服务、零售及消费品行业的定制化AI落地解决方案。CI&T全球11国AI开发人员总数超8000人,约20%新销售订单采用AI驱动定价模式;第一季度营收1.366亿美元,第二季度营收指引不低于1.4亿美元,全年营收预期5.56亿至5.75亿美元;第一季度调整后EBITDA利润率15.2%,汇率中性口径下17.4%,全年目标区间17%-19%。
当前企业级AI讨论重心已从演示转向实际部署,GitHub Copilot取消统一费率订阅改为按Token计费,推动企业从沙盒实验转向生产落地。CI&T正尝试摆脱纯人力外包服务商定位,将业务规模与自有知识产权解决方案、方法论驱动的交付流程结合,若该模式跑通将提升复用率、交付速度与定价权,其估值有脱离传统服务企业倍数区间的可能。但仅获得Claude合作伙伴身份不足以支撑估值抬升——若增长仅依赖人力扩张而非运营杠杆提升,估值很难大幅上行。后续关键验证信号包括:第二季度营收贴近1.4亿美元指引、全年营收推进符合预期、EBITDA利润率向17%-19%目标区间靠拢;更多Claude相关项目完成从试点到生产落地的转化。
Anthropic的合作伙伴网络扩张速度反映其商业化战略:从企业级入口渗透到垂直行业解决方案。微软、摩根大通、沃尔玛、礼来、美国国防部、NASA等机构在Mythos 5解禁名单中占据核心位置,意味着前沿AI能力与关键基础设施开始深度绑定。对全球企业服务市场而言,"AI+垂直行业"模式已经过了PPT阶段,正在进入"客户-by-客户、场景-by-场景"的实操落地期。
随着Claude Sonnet 4.6、Claude Opus 4.8、GPT-5.5、Gemini 3.1 Pro等多档模型并存,企业级AI应用已从"一刀切选最强"转向按任务难度、置信度、成本上限动态路由。简而言之:简单任务用便宜模型跑量,关键任务用贵模型保质量,中间地带交给Sonnet级别的模型兜底。
Anthropic官方主力分层已清晰:Claude Sonnet 4.6适合日常编码、分析和内容工作,Claude Opus 4.8更偏复杂推理和长程agentic coding,Fable 5作为前沿对比层专攻最高难度任务。OpenAI主力是GPT-5.5,模型越强越不能拿来"整仓库一锅端"——长上下文不是万能钥匙,反而容易把上下文污染、信息混叠、重复扫描等问题一起带进来。X和GitHub上最近围绕Claude Code的讨论有个明显共识:recursive decomposition——先拆任务再让模型各干各的——才能真正省token。
实践上很多团队总结出四步法:第一步先让Claude读地图,不要一上来改代码,目录、入口、依赖、配置、调用链先扫一遍确认项目结构;第二步把问题缩小到单个模块或单条链路,比如认证、账单、任务队列、前端状态,不要让模型同时处理十几个主题;第三步先出方案再动手写,方案阶段只要改动清单、风险点、测试建议;第四步小步执行小步回看,每次只改少量文件,回归测试后再继续。这样做看上去慢一点,实际经常更快,因为少返工。批量分类、标签生成、简单抽取用Haiku这类轻量模型更划算:它的正确用法不是替代所有模型,而是作为前置筛选层或批处理层——先用Haiku判断任务类型、提取基础字段,再把少量复杂样本交给Sonnet或Opus处理。
国内团队用Claude的常见限制不只是访问问题,还包括支付、企业采购、日志留存、数据出境、SLA和合规审批。Anthropic官方对支持地区和销售限制有明确说明,所以很多公司并不是"想不想用"的问题,而是"能不能稳定地纳入生产流程"。这也是为什么业内建议先做统一接入层再谈具体模型。统一入口API(如词元无忧等聚合代理)的价值正在于让Claude、GPT-5.5、Gemini放在同一套接口和账单里跑POC,对采购、技术和研发三方来说这样看成本更直观,也更容易判断哪一层该用更强的模型、哪一层根本不该用最贵的模型。模型路由比模型选择更值得花时间。