【菩提树AI每日早报】2026年6月4日

PromptTree|阅读 2
2026/06/04 07:45
OpenAICodexChatGPTWorkflow Automation千寻智能SpiritCosmos 3Vera RubinBernini豆包千文阶跃星辰Step 3.7OpenRouterDeepSeek-V4
1. OpenAI宣布ChatGPT与Codex正式合并,企业AI办公进入"入口即执行"时代; 2. 千寻智能Spirit v1.6反超英伟达Cosmos 3夺魁RoboArena,同日官宣15亿元A+轮融资; 3. 英伟达GTC台北发布Vera Rubin全栈量产,AI超级PC时代正式开启; 4. 字节跳动开源视频生成框架Bernini,"先理解意图再生成"革新视频编辑; 5. 豆包C端永久免费、千问开放第三方Agent生态; 6. 阶跃Step 3.7 Flash登顶OpenRouter全球第二; 7. 腾讯云下调DeepSeek-V4价格97.5%。

1. OpenAI宣布ChatGPT与Codex正式合并,企业AI办公进入"入口即执行"时代

在6月3日晚间进行的OpenAI "Intelligence at Work"直播活动上,OpenAI宣布了一项震动整个AI行业的产品决策:未来数周内,Codex的核心执行能力将直接整合进ChatGPT应用。这意味着用户无需在两个产品之间切换,ChatGPT负责对话入口,Codex负责任务执行,两者合二为一。Codex团队负责人Tibo甚至在X上提前发帖调侃"应该把Codex改名为ChadGPT",如今答案揭晓——ChatGPT直接"吞下"了Codex。

这一整合背后是OpenAI对企业市场的全面提速。官方数据显示,Codex目前每周活跃用户已突破500万,自今年2月桌面版上线以来增长超过6倍。更值得关注的是用户结构的变化:知识工作者正以开发者3倍以上的速度涌入,目前约占全部用户的20%。为承接这股需求,OpenAI同步推出三大核心更新:六款面向特定岗位的专属插件(覆盖数据分析、创意制作、销售、产品设计、股权投资和投资银行六大领域);Sites功能允许Codex将工作成果直接输出为可托管的交互式网站;Annotations标注功能则让用户可以在文档中精确圈定操作区域,实现局部修改,使AI工作流更接近真实办公协作——不是一次性生成,而是持续迭代。

OpenAI此次整合,被外界视为对Anthropic企业战略的正面回应。Anthropic早在今年2月便推出了企业智能Agent计划,面向金融、工程和设计等垂直场景切入,而OpenAI凭借ChatGPT积累的庞大用户基础,以规模效应向企业端渗透。两条路径各有基因,角力才刚刚开始。

2. 千寻智能Spirit v1.6反超英伟达Cosmos 3夺魁RoboArena,同日官宣15亿元A+轮融资

6月3日,RoboArena国际具身机器人评测榜单更新,中国公司千寻智能的Spirit v1.6一举超越英伟达Cosmos 3,登上全球第一。RoboArena由UC Berkeley、Stanford、NVIDIA等顶尖机构联合发起,相关论文入选CoRL 2025 Oral,其核心机制为分布式协作、双盲对决、Elo动态排名和开放评测网络,模拟真实机器人完成任务的场景,被认为是"把具身智能评测从静态跑分推向真机对抗"的关键基准。

Spirit v1.6此次胜出并非偶然。从双盲对比视频来看,在"打开笔记本"任务中,Spirit v1.6动作衔接自然、速度快,而Cosmos 3几乎未能形成有效尝试;在"把卡皮巴拉放入盘子"任务中,Spirit v1.6完成了识别、抓取和放置的完整链条,pi 0.5则未能成功识别目标。Spirit v1.6的底层优势在于其百万小时级真实世界交互数据闭环——数据不只记录"正确示范",也记录失败、打滑、掉落和中断修正,这让模型学会了在不确定环境中自我修正,而不只是执行标准动作。

就在榜单更新当天,千寻智能同步宣布完成15亿元A+轮融资,三个月内密集完成四轮融资,累计近50亿元,刷新具身智能赛道融资频次纪录。本轮投资方涵盖一线美元基金、大型产业资本和国资基金,老股东持续加码,资金将用于新一代具身基座模型迭代、全球化真实数据基础设施建设及多行业规模化商业落地。目前千寻智能已与博世集团推进全球工业场景合作、与京东合作Moz机器人在京东MALL上岗担任咖啡师、小墨机器人落地宁德时代动力电池PACK产线,单日工作量达人工3倍。

3. 英伟达GTC台北发布Vera Rubin全栈量产,AI超级PC时代正式开启

6月1日至2日,英伟达创始人黄仁勋在Computex 2026台北电脑展上发表重磅主题演讲,宣布Vera Rubin全栈计算平台正式进入全面量产阶段,同步推出五大核心布局,震动全球半导体和AI产业。

Vera Rubin平台是英伟达面向AI时代的新一代全栈计算方案,集成Vera自研CPU、Rubin新一代GPU、高速互联卡和DPU全系列芯片,打破英特尔、AMD在服务器芯片领域数十年的垄断格局,OpenAI和SpaceX已率先批量采购部署。黄仁勋在演讲中首次明确提出新商业公式:"算力即收入、Token即利润、耗电量决定盈利上限"——数据中心从"存数据的机房"全面转型为"AI Token生产工厂"。

与此同时,英伟达联手微软、联想、戴尔推出RTX Spark芯片平台,时隔四十年重新定义个人电脑:桌面级DGX Station主机搭载748GB超大内存,单台设备即可本地运行万亿参数大模型并同时承载上百个自主AI Agent。黄仁勋预判,未来10年AI超级PC将像冰箱彩电一样走进每个家庭。此外,英伟达还发布了AI工厂平台DSX开源架构,同等电力能耗下可多部署40%加速芯片;Cosmos 3物理世界模型为机器人提供"线上实训课堂";Isaac GR00T人形机器人开发平台搭配31自由度灵巧机械手,实现工业分拣、家政服务全场景落地,国内宇树科技已同步加入生态。

GTC台北消息直接引爆全球半导体板块:6月3日A股半导体个股大面积涨停,源杰科技涨超17%,优迅股份涨超14%,大唐电信、立昂微、康强电子涨停,澜起科技逼近涨停,费城半导体指数单日上涨5.87%再创历史新高,美股三大指数同步刷新纪录。黄仁勋在演讲中点名Marvell Technology将成为"下一家万亿美元公司",Marvell股价当天收盘暴涨32.52%。

4. 字节跳动开源视频生成框架Bernini,"先理解意图再生成"革新视频编辑

字节跳动商业化技术团队近日正式开源了面向视频生成与编辑的统一框架——Bernini,剑指当前AI视频生成领域最大的用户痛点:模型"听不懂人话"、编辑结果与用户意图偏差过大。

Bernini的核心创新在于其"多模态大模型规划+DiT渲染"双阶段分工机制。第一阶段,多模态大模型理解用户的自然语言指令,进行语义理解和任务规划;第二阶段,由Diffusion Transformer(DiT)模型完成最终视觉渲染。这种"先理解、再动手"的范式,与传统视频生成模型直接依赖prompt生成有本质区别:模型能准确识别用户想要修改的具体画面区域、理解修改要求背后的意图,并在时序上保持一致性,同时维持角色外观的连贯性。

Bernini的开源被视为字节跳动在AI生成领域的重大技术输出。目前视频生成赛道的竞争焦点正从画质提升转向可编辑性、时序一致性和角色保持能力,Bernini的开源有望降低行业门槛,推动视频生成从"炫技"走向真正的内容创作工具。

5. 豆包C端永久免费、千问开放第三方Agent生态,国内AI商业化路径加速分化

6月3日,豆包和千问同日向市场释放重磅产品信号,国内AI大模型商业化路径正式进入分化阶段。

豆包发布《关于豆包即将推出专业版的说明》,明确表示:针对专业人群的生产力需求,豆包计划推出豆包专业版,包含软件开发、数据分析、专业设计、流程自动化、金融分析、科学研究等专业服务;但对于广大用户日常使用的豆包功能(搜索问答、写作生图、语音视频对话等),将保持目前的免费服务,且专业版也将在一定额度内提供免费使用。豆包表示会不断为免费用户提供新模型、新能力和更好体验。

同日,千问App宣布向第三方Agent(智能体)和Skill(技能模块)全面开放,所有企业均可接入Skill,未来也可在千问运营自己的品牌Agent。目前瑞幸咖啡、肯德基、东方航空等首批企业已在千问提供Skill服务,用户可体验瑞幸点单、肯德基到店自取等功能;上述企业也在测试接入Agent,近期将上线Agent接入平台。这意味着中小品牌无需自建大模型团队,仅需接入Skill、搭建自有Agent即可在千问App中以对话形式为用户提供产品服务,大幅降低实体行业AI数字化门槛。

两大头部厂商的策略分化折射出一个共同趋势:2026年国内AI行业告别"全品类无限免费"的粗放阶段,头部厂商正在用免费守住大众流量底盘、以增值服务挖掘商业收益。

6. 阶跃Step 3.7 Flash登顶OpenRouter全球第二,开源Agent模型进入加速落地期

6月3日,阶跃星辰(StepFun)最新开源基座模型Step 3.7 Flash在发布仅2天后,登上OpenRouter Trending全球第二位,成为近期全球开发者社区最受关注的中国开源模型。5月29日,阶跃星辰正式发布并开源Step 3.7 Flash,该模型面向Agent生产化阶段推出,围绕Agent、Coding、Search与多模态工作流进行系统优化,是面向实际应用场景而非单纯追求参数规模的新一代Flash模型。

这一趋势折射出2026年开源大模型赛道的核心变化:行业告别盲目比拼参数规模,适配Agent落地、低成本高效推理成为基座模型的核心评判标准。OpenRouter作为全球最大的AI模型聚合平台之一,其Trending榜单排名直接反映开发者社区的实际采纳热度,Step 3.7 Flash的上榜标志着国产开源基座模型在Agent工作流领域获得国际开发者认可。

7. 腾讯云下调DeepSeek-V4价格97.5%,AI Agent商业化成本基础进一步夯实

6月2日官宣、6月3日正式生效,腾讯云宣布大幅下调DeepSeek-V4大模型调用价格,最高降价幅度达到97.5%,而模型性能保持不变。这一动作与Computex 2026五大科技巨头同台宣布"2026年正式成为AI Agent规模化落地元年"形成共振,从成本端进一步夯实了AI Agent商业化落地的底层逻辑。

DeepSeek-V4以其高性价比在开发者社区获得广泛使用,腾讯云此次大幅降价,使其成为企业接入Agent工作流更具吸引力的基础模型选项。结合前文所述的ChatGPT+Codex整合、千问开放Agent生态等消息,AI Agent的商业化基础设施正在快速完善:从模型能力(Codex/GPT-4级别执行)、应用入口(ChatGPT高频场景)到调用成本(DeepSeek大幅降价),产业链各环节的成熟度同步提升。