Kimi K2.6挑战开源权重冠军

PromptTree|阅读 3
2026/05/05 06:56
Kimi K2.6月之暗面
Kimi K2.6挑战开源权重冠军

月之暗面公司更新的Kimi模型处理更长的自主编码会话,并相较于其前身扩展了多智能体编排能力。

最新动态:Kimi K2.6是一个1万亿参数的视觉语言模型,与Qwen3.6 Max Preview和新发布的DeepSeek V4并驾齐驱,仅略落后于顶级闭源模型。它旨在生成代码,并在一个可能持续数天的"计划-编写-测试-调试"循环中运行,并且它可以实例化数百个协作完成单个任务的智能体。与其前身相比,它产生的幻觉也更少。

  • 输入/输出:输入文本、图像和视频(最多25.6万标记),输出文本(最多9.8万标记)
  • 架构:混合专家模型,总参数1万亿,每个标记激活320亿参数,MoonViT视觉编码器
  • 特性:工具使用、网络搜索、原生INT4量化、"保留思考"模式、智能体群
  • 性能:在Artificial Analysis Intelligence Index上领先其他开源权重模型,但落后于领先的专有模型
  • 可用性/价格:权重可依据修改后的MIT许可证从Hugging Face免费下载,该许可证允许对每月活跃用户超过1亿或月收入超过2000万美元的产品进行商业使用并需注明出处,免费聊天界面在kimi.com和Kimi移动应用程序上,通过Moonshot的API访问 输入/缓存/输出每百万标记$0.95/$0.16/$4.00
  • 未披露:训练数据和方法

工作原理:Kimi K2.6复用了Kimi K2引入并在Kimi K2.5中 refined的架构,包括多头潜在注意力(一种通过压缩键和值来减少内存需求的注意力变体)和MoonViT视觉编码器(4亿参数)。月之暗面尚未披露Kimi K2.6在训练数据和方法上的区别。

  • 与Kimi K2 Thinking和Kimi K2.5一样,Kimi K2.6使用原生INT4量化进行训练。
  • 保留思考选项在多轮交互中保留先前生成的推理标记,据月之暗面称,这可以提高编码性能。
  • 在智能体群模式下,一个协调者智能体将任务分解为子任务,创建最多300个并行子智能体(从Kimi K2.5的100个子智能体和1500步增加到可执行4000步)来执行任务,并在智能体失败或停滞时重新分配工作。一个名为"爪群"的研究预览功能将智能体群模式开放给来自其他开发者的智能体——这些智能体可以在任何设备或模型上运行——以及人类协作者。

性能:Kimi K2.6在一些智能和代理能力的基准测试中领先于开源权重模型,并在测试人类偏好的主观测试中相对于同行排名很高。然而,它在评估推理和大型项目编码以及人类偏好的基准测试上落后于领先的闭源模型。

  • 在Artificial Analysis的Intelligence Index(一个由10项经济有用任务测试组成的综合指标)上,设置为推理模式的Kimi K2.6(54分)领先于开源权重模型,但落后于设置为极高推理的GPT-5.5(60分),以及设置为最大推理的Claude Opus 4.7和设置为推理的Gemini 3.1 Pro Preview。最接近的开源权重竞争对手是设置为最大推理的Qwen3.6 Preview和设置为最大推理的DeepSeek-V4-Pro(并列52分)。
  • Kimi K2.6在Intelligence Index上的地位基于其在GPQA Diamond(回答研究生水平的科学问题)、HLE(回答旨在测试推理能力的专家级多学科问题)和SciCode(为科学研究生成代码)上领先于其他开源权重模型的顶级表现。然而,它在五个索引基准测试上略微落后于新发布的开源权重模型DeepSeek-V4-Pro,并且在剩余两个基准测试上表现不如Xiaomi MiMo-2.5-Pro和其他开源权重模型。
  • 月之暗面通过要求Kimi K2.6将Qwen3.5-0.8B的推理代码移植到Zig(一种系统编程语言)并为Mac进行优化,来测试其完成大型编码项目的能力。在超过12小时内进行了4000多次工具调用和14次连续修订,Kimi K2.6将移植代码的吞吐量从大约每秒15个标记提高到193个标记,最终比在同一硬件上运行的热门本地推理应用LM Studio快约20%。
  • Artificial Analysis测量了Kimi K2.6的幻觉率(给定一个常识性问答基准,非正确输出中包含错误回答、承认无知和拒绝回应的比例)为39.26%。这低于Kimi K2.5(64.6%),大致与Anthropic Claude Opus 4.7(36.18%)相当。
  • 在Arena.ai的Code Arena WebDev排行榜上(该排行榜通过盲测两两比较对模型进行网页开发编码能力排名),截至2026年4月26日,Kimi K2.6(1529 Elo分)在67个模型中排名第六,落后于Anthropic Claude Opus 4.7(1565 Elo分)、Claude Opus 4.6(1548 Elo分)和Z.ai的开源权重模型GLM-5.1(1534 Elo分)。

新闻背景:在数小时的自主执行中保持任务聚焦的能力在2025年末成为了一个竞争前沿。Anthropic的Claude Code、OpenAI的Codex和阿里巴巴的Qwen3-Coder都在其最新版本中瞄准了这一能力。2025年7月发布的Kimi K2是代理式工具使用领域的早期开源权重入局者,此后每隔几个月该系列就会更新,越来越侧重于长时间跨度的执行。

为何重要:月之暗面稳步延长了Kimi K2系列模型能够自主有效执行任务的持续时间:从最初的简短推理痕迹,到多步骤工具使用,到多小时的编码会话,再到现在的多日项目。每一次延长都拓宽了为了保持智能体正常运行所需的人类检查间隔。

我们的思考:持续的自主性和低幻觉率是相关的,但关联性越来越弱。如果一个智能体犯了错误,它可以检查自己的工作,发现错误,并修复它。