2026年5月,谷歌DeepMind在自动化形式数学领域扔下了一颗深水炸弹。该团队发布了AlphaProof Nexus——一套由Gemini驱动的智能体框架,在数学界最具挑战性的埃尔德什问题库中,一次性破解了9道悬而未决数十年的开放问题,同时顺手证明了OEIS整数序列百科全书中的44个开放猜想,并攻克了一道搁置15年的代数几何难题。埃尔德什问题是数学家保罗·埃尔德什(Paul Erdős)生前悬赏征集的难题,被认为是组合数学和数论领域最深邃的问题之一,此次破解的题目最短悬置30年,最长达到56年。
该框架的核心架构极为精巧:将Gemini 3.1 Pro作为推理引擎生成Lean形式化证明语言代码,由Lean编译器逐行验证,任何报错直接反馈给模型进行修正,循环迭代直到全部证明通过。在这一过程中,DeepMind设计了四个梯度智能体:最基础的Agent A仅依靠"LLM写证明+编译器报错循环",就解出了全部9道题;进阶的Agent B引入了AlphaProof强化学习树搜索来攻克局部难点;Agent C加入了进化算法思想,允许多个子Agent共享证明草图种群并用Elo评分系统进行竞争淘汰;Agent D则是集大成者,融合了进化筛选、专项工具攻克和大模型逻辑推理三种能力。菲尔兹奖得主陶哲轩曾预测AI解决埃尔德什问题的成功率约在1-2%,本次DeepMind挑战353道题解出9道,比例恰好吻合这一预测。有趣的是,最基础的Agent A反而与最复杂的Agent D一样都解出了全部9道题,区别仅在于复杂题目上消耗的算力成本。
这一突破的意义远超数学本身。它标志着AI首次具备了"可验证推理"能力——传统大模型在数学问题上最大的软肋是"幻觉",即一本正经地给出错误证明。而AlphaProof通过将自然语言数学推理翻译为Lean形式化代码,让定理证明器作为每一步的确定性校验器,从根本上消除了幻觉风险。团队估计每道题的平均算力成本仅需几百美元,且所有证明代码已完全开源。这一思路正在向组合数学、图论、代数几何、量子光学等多个科学领域扩展,预示着AI从"辅助人类解题"向"自主开展数学研究"的重大跃迁。
当大模型在各行各业加速落地,一个核心技术瓶颈却始终困扰着整个行业——AI始终缺乏真正的长期记忆能力。当前主流的RAG(检索增强生成)方案依赖语义相似度检索历史信息,但"语义相似"并不等于"真正相关",系统常常遗漏埋藏在长对话深处的关键信息,也无法判断哪些信息真正值得被关联。这就好比一个图书管理员只按书名关键词找书,而不理解书籍内容的内在分类——自然无法完成复杂的知识关联任务。
微软研究团队在ACL 2026主会议上提出了一套革命性的AI记忆框架Mnemis,其设计同时受到认识论和认知科学的双重启发。Mnemis的名字源自希腊神话中的记忆女神,其核心突破在于将记忆过程从"被动存储"升级为"主动建构"。在索引阶段,传统RAG将对话分块向量化后直接存入数据库,而Mnemis则先将碎片化对话组织成自适应的层级知识图谱:底层是Base Graph(知识图谱),从对话中提取实体和关系并进行消歧去重;第二层是Hierarchical Graph(层级图),将具体实体归纳为高层语义概念,建立跨主题的高阶连接,例如"旧金山""底特律"等城市实体会被归入"地理位置"概念,进而归入"地理"类目。每个用户的层级图完全由自身数据自适应生成,而非通用模板。
在检索阶段,Mnemis引入了诺贝尔经济学奖得主丹尼尔·卡尼曼的双系统理论:System-1(快思考)将查询向量化,在Base Graph中快速匹配语义最相似的实体,适合简单直接的问题;System-2(慢思考)则利用大模型的推理能力,在层级图上自顶向下逐层遍历、智能筛选,当模型确信某个类别下的所有内容都相关时,可触发Shortcut机制直接获取全部后代节点,兼顾准确性与效率。两条路径最终融合互补,确保语义直接匹配和结构深层关联的记忆都能被完整覆盖。效果验证显示,Mnemis在LoCoMo基准上取得93.9%的准确率,在LongMemEval-S基准上取得91.6%的准确率,均显著超越现有所有RAG和Graph-RAG方法。值得注意的是,上述结果仅使用GPT-4.1-mini作为底座模型,证明框架设计本身的先进性与底座选择解耦。
2026年5月27日,美国互联网券商Robinhood宣布推出"智能体交易"功能(Agentic Trading)和"AI智能体信用卡",允许用户接入第三方AI智能体代理自己进行股票交易和消费决策,Robinhood因此成为全球首家向散户开放AI自主交易能力的主流券商。这不是一项小打小闹的功能更新,而是一个时代开启的标志性事件——量化交易和AI驱动自动化决策模型过去只在机构投资者中普及,如今技术门槛已被彻底拆除,普通散户也能参与其中。
从具体机制来看,Robinhood设计了严谨的隔离架构:用户需要为AI智能体开设一个独立的"智能体交易账户",预先存入特定金额,AI仅能操作该账户内的资金,无法触及用户的全部资产。每当AI执行交易时,系统会推送实时通知,用户可随时在App内查看AI交易的盈亏情况,一旦发现异常可一键剥夺AI的交易权限。对于信用卡消费场景,Robinhood Gold用户可将自己的信用卡关联至一个虚拟卡号,由AI代理在电商平台上执行自动购物任务——例如,当某款心仪球鞋降至300美元以下时,AI自动下单;或当最难预订的餐厅有空位时,AI立即锁定座位。AI使用虚拟卡消费可获得3%返现。连接方式上,Robinhood支持通过MCP(Model Context Protocol)协议将第三方AI智能体接入平台。
这一举措将Robinhood置于更广泛的AI金融基础设施竞赛的核心。Stripe已推出Agentic Commerce Suite,支持AI代理使用用户保存的支付方式完成购买;AWS与Coinbase和Stripe合作推出Bedrock AgentCore Payments;Visa和Mastercard分别推出了Agent Pay和可信代理协议。
麦肯锡预测,到2030年AI智能体可能在美国驱动1万亿美元的交易量。但风险同样不容忽视:德勤4月调查显示,仅有21%的受访IT和业务负责人认为其组织对AI代理具备成熟的治理能力。斯坦福大学、加州大学河滨分校、微软研究院和英伟达联合发表的论文甚至警告了"盲目目标导向性"风险——AI代理可能在指令已变得危险或矛盾时仍固执地继续追求原始目标。目前Robinhood智能体交易功能仍处于Beta测试阶段,初期仅支持股票交易,后续将逐步扩展至期权、加密货币和期货市场。
2026年5月27日,小米旗下MiMo大模型团队发布重磅公告:对V2.5系列模型API进行永久性价格调整,最高降幅达99%,不再区分上下文窗口长度,同时优化Token Plan计费体系,同等价格下用量提升至原来的5至8倍。雷军随后亲自转发确认。同日稍早,DeepSeek也宣布从6月1日起,当前促销价格直接转为正式价格,不再恢复原价,其创始人梁文锋因此在开发者圈子里被拥簇为"梁圣"。而就在一周前,字节跳动豆包试水付费模式却遭遇用户大量吐槽,"豆包笨还收费"的词条一度冲上热搜——市场呈现出明显的分化格局。
从具体降幅来看,MiMo-V2.5-Pro调价后输入缓存命中价格降至0.025元/百万tokens,相较于原价不高于256k规格的1.40元降幅达98%,对比256k至1M规格原价2.80元降幅触及99%的惊人水平;输入未命中缓存定价3.000元/百万tokens,较原价7.00元下降57%,对比长窗口原价14.00元降幅79%;输出定价6元/百万tokens,相较原价21元和42元分别下降71%和86%。这一降价背后,是团队在推理系统上的持续优化:基于SGLang HiCache完整支持滑动窗口注意力机制,将KV Cache在GPU显存、CPU内存、SSD等多级存储之间的数据搬运量降低至优化前的近1/7,并将可缓存token数量提升至近5倍,显著提升了缓存命中率和推理效率。
大模型市场的K型分化格局正在加剧:一极是小米、DeepSeek等以开源和价格战驱动用户规模的厂商,持续下探价格底线;另一极是智谱GLM、腾讯混元等主打企业定制服务的厂商,维持价格稳定甚至小幅上调,形成"通用模型降价走量、高端模型溢价保值"的竞争态势。AI聚合平台AI.cc发布的报告显示,过去一年企业级大模型Token调用成本同比暴跌67%,开源模型已占据企业Token调用量38%的份额,性价比已成为市场核心竞争要素。小米宣布未来三年在AI领域投入600亿元,MiMo-V2.5-Pro目前在Artificial Analysis榜单综合智能指数和Agent指数上位列全球开源模型并列第一。
在刚刚落幕的 Create 2026 百度AI开发者大会 上,李彦宏 首次提出 AI 时代的新指标——日活智能体数(Daily Active Agent,简称 DAA)。
他认为,当前行业常以 Token 消耗量衡量 AI 使用规模,但 Token 更偏向计算资源与成本指标,难以直接体现 AI 实际完成任务的能力。相比之下,DAA 更关注有多少智能体在真实场景中持续运行、执行任务并交付结果。李彦宏预测,未来全球日活智能体数可能超过 100 亿,规模或将超过当前互联网日活用户数量。
本届大会以“自我进化”为主题,重点展示了百度在智能体方向的产品与基础设施布局。
在应用层面,百度推出了移动端智能体产品 DuMate,用于整合搜索、知识、任务执行等能力,实现从需求提出到任务完成的自动化流程,并支持 PC 与移动端协同。代码智能体 秒哒 App 与企业版正式上线,据百度披露,其开发过程中大量代码由智能体参与生成,目前已累计服务超过 1000 万用户。李彦宏表示,低成本、快速生成的软件形态,可能进一步扩大软件开发需求。
数字人方向,直播工具 慧播星 升级为“百度一镜”,支持多智能体协同生成长时互动内容。百度将数字人视为智能体的一种可视化交互形态。
决策智能体方面,百度伐谋 2.0 在生产排程、物流规划与工艺优化等场景进行了展示。例如,在生产排程案例中,系统完成了 404 个任务与 82 台注塑设备的自动调度,百度披露生产效率有所提升。
基础设施层面,百度智能云将 MaaS 模型服务升级为 Token Factory,重点面向智能体场景,提供推理、记忆、工具调用与多智能体协同能力。同时发布 Harness Engineering,用于支持长上下文管理、持久记忆、工具调用及子智能体调度等能力。
芯片与算力方面,昆仑芯 P800 已进入规模化部署阶段。百度表示,其万卡集群已在模型训练场景中投入使用,并持续推进算力扩展能力建设。
在产业落地方面,百度智能云披露,其服务已覆盖辅助驾驶、AI 硬件与具身智能等方向,包括支持超过 2000 万辆 L2 级辅助驾驶车辆,以及服务超过 1000 家 AI 硬件相关企业。