Open发布世上最强模型 GPT-5.6三档模型(Sol/Terra/Luna)

PromptTree|阅读 2
2026/06/29 08:58
OpenGPT-5.6SolTerraLuna
GPT-5.6 系列即将开启有限预览,包含旗舰模型 **Sol**、均衡模型 **Terra** 和高性价比模型 **Luna**。其中 Sol 主打最强推理、编码、生物学和网络安全能力;Terra 性能接近 GPT-5.5,但价格约为其一半;Luna 则面向低成本、高频调用场景。GPT-5.6 还引入新的推理机制、子智能体协作模式和更完善的分层安全体系。官方将先向可信合作伙伴开放预览,继续测试安全与可用性,随后逐步面向 ChatGPT、Codex 和 API 用户开放。

概述

北京时间6月27日凌晨,OpenAI正式发布GPT-5.6系列模型,这次模型版本命名非常有意思,首次采用天文学命名体系。

  • 旗舰版本Sol(太阳)代表这一代模型的最高能力
  • 均衡型Terra(地球)性能接近 GPT-5.5,但价格大约只有后者的一半
  • 轻量版Luna(月亮)高性价比款,用更低的成本提供足够强的能力

ScreenShot_2026-06-29_082333_674.png

三款同步面世,但仅以"有限预览"形式向约20家经美国政府审批的合作企业开放,OpenAI正与政府合作争取未来几周内全面发布。

这套命名也意味着,GPT 系列正在从过去单一型号升级,走向更清晰的“产品分层”:你可以根据任务复杂度、速度需求和预算,选择不同模型。

一、为什么 GPT-5.6 要先做有限预览?

这次 GPT-5.6 Sol 搭载了目前最强的一套安全防护体系。

原因也很直接:模型能力越强,能做的事情越多,风险自然也会变高。尤其是在网络安全、生物学、自动化任务等领域,模型已经不只是回答问题,而是越来越接近“可以协助完成复杂任务的智能体”。

因此,在正式大规模开放之前,GPT-5.6 系列会先面向一小部分值得信赖的合作伙伴开放有限预览。

这个过程,一方面是为了继续测试模型能力,另一方面也是为了验证安全机制是否足够稳定。尤其是针对高风险活动、敏感网络请求、重复滥用行为等场景,GPT-5.6 Sol 做了更严格的防护。

官方也明确提到,这次有限预览与美国政府的沟通和协作有关。换句话说,GPT-5.6 并不是直接一次性全面放开,而是先小范围测试,再逐步扩大开放。

不过官方也强调,这种政府预览流程不应该成为长期默认模式。因为真正需要这些工具的开发者、企业、网络安全防御人员和全球合作伙伴,也需要尽快获得前沿模型能力。

所以,这更像是一次短期过渡:先确保安全,再扩大开放。

二、GPT-5.6 Sol 的核心能力:更强的深度推理

GPT-5.6 中引入了一种新的推理机制,目的是让 Sol 在复杂任务上拥有更长、更深的思考空间。

过去很多模型的问题是:面对复杂任务时,可以给出答案,但中间规划、迭代和工具协调能力不够稳定。

而 GPT-5.6 Sol 强调的是“智能体能力”。

也就是说,它不只是回答你一个问题,而是可以更好地拆解任务、调用工具、修正错误,并持续推进复杂工作流。

这对于编码、科研、网络安全这类任务非常重要。

此外,GPT-5.6 还引入了一种新的模式,可以利用子智能体来加速复杂任务执行。通俗点说,就是让多个“子任务助手”协同工作,从而突破单个智能体的效率限制。

这也解释了为什么它在一些长期任务和复杂工作流测试中表现更强。

三、编码能力:Terminal-Bench 2.1 创下新标杆

在编码工作流方面,GPT-5.6 Sol 在 Terminal-Bench 2.1 中表现非常突出。

Terminal-Bench 2.1 不是简单考代码题,而是更接近真实开发者使用命令行解决问题的过程。

它考察的是:

  • 能不能理解任务
  • 能不能规划步骤
  • 能不能操作工具
  • 能不能发现错误
  • 能不能迭代修复
  • 能不能最终完成目标

这类测试比普通代码题更难,因为它更接近真实工作流。

TerminalBench 2.1.png

从结果看,GPT-5.6 Sol Ultra 得分为 91.9%,GPT-5.6 Sol 得分为 88.8%,处于非常领先的位置。

Terra 和 Luna 的表现也不弱,说明 GPT-5.6 系列整体在编码和工具协作能力上都有明显提升。

这对开发者来说,意义很大。

因为未来 AI 编程助手的竞争,不只是“会不会写代码”,而是能不能真正完成一整套开发任务。

四、生物学能力:更少输出,完成更复杂分析

在生物学工作流方面,GPT-5.6 Sol 也有明显提升。

官方提到了 GeneBench v1,这是一个用于评估长期基因组学和定量生物学分析能力的基准测试。

GeneBench v1.png

GeneBench v1 (1).png

GeneBench v1 (2).png

重点不是单纯回答生物学知识,而是看模型能否在复杂分析任务中持续推理,并且用更少的输出 token 得到更好的结果。

这点非常关键。

因为模型如果只是“说得多”,并不代表它更聪明。真正有效的模型,应该是用更少的输出、更高的效率,完成更准确的分析。

从这个角度看,GPT-5.6 Sol 的提升不是简单的“话更多”,而是推理效率更高。

五、网络安全能力:更强,但也更谨慎

GPT-5.6 Sol 被称为目前最强大的网络安全模型。

它在漏洞研究、漏洞分析、安全测试和补丁开发等方面都有明显提升。

ExploitBench.png

比如在 ExploitBench 测试中,GPT-5.6 Sol 使用大约三分之一的输出 token,就可以达到接近 Mythos Preview 的水平。

ExploitGym.png

ExploitGym (1).png

ExploitGym (2).png

这说明它在网络安全任务中的效率更高。

但这里也必须强调一点: 能力越强,安全边界越重要。

官方明确表示,GPT-5.6 Sol 更擅长帮助人们发现和修复漏洞,而不是可靠地执行端到端攻击。

也就是说,它的目标不是帮助攻击者,而是帮助防御者。

例如:

  • 代码审查
  • 漏洞研究
  • 补丁开发
  • 调试分析
  • 安全教育
  • 防御测试
  • 企业安全加固

这些才是它希望支持的方向。

六、为什么这次安全机制这么重?

GPT-5.6 Sol 的能力提升,尤其是在网络安全领域,会带来一个现实问题:

同样一项技术,既可能用于防御,也可能用于攻击。

比如漏洞分析,对安全工程师来说是正常工作;但如果意图不对,也可能变成攻击准备。

所以 GPT-5.6 采用了更复杂的分层安全机制。

官方提到,这套机制不是只靠一个“拒绝回答”规则,而是由多层系统组成。

包括:

  • 模型训练阶段内置的安全保护
  • 生成过程中的实时风险检测
  • 账户级别的风险信号分析
  • 差异化访问控制
  • 持续监控
  • 滥用行为处理
  • 自动化和人工红队测试

简单来说,就是不只看你这一句话,还会结合上下文、任务类型、行为模式和风险信号进行判断。

这套机制的目标,是尽量做到两件事:

第一,合法的防御性工作不要被误伤; 第二,被禁止的攻击性用途更难成功、更容易被发现。

七、实时分类器:生成过程中也会被检查

GPT-5.6 系列还加入了实时网络和生物滥用分类器。

这是什么意思?

以前很多安全审核可能是在模型输出前后做判断,而现在则是在模型生成内容的过程中同步评估。

如果系统发现某个请求可能存在高风险,生成过程可能会被暂停,然后交给更强的推理模型进一步判断上下文。

如果最终判断内容不允许,就会在到达用户之前被拦截。

这会带来一个用户能明显感受到的变化:

有些请求可能会被拒绝; 有些请求可能会变慢; 有些合法但敏感的安全研究任务,也可能需要额外审核。

这也是预览期要重点测试的内容。

官方不仅想知道安全系统能不能拦住滥用,也想知道它会不会过度影响正常工作。

八、自动化红队:花费超过 70 万个 A100 GPU 小时

为了提升模型安全性,官方投入了超过 70 万个 A100 GPU 计算小时 用于自动化红队演练。

这个数字非常夸张。

所谓红队演练,就是站在攻击者角度去测试模型,看能不能绕过安全规则、诱导模型输出不该输出的内容,或者发现系统漏洞。

而自动化红队,就是用模型去攻击模型,用自动化方式大规模寻找问题。

这次测试重点不是找单个场景下的漏洞,而是寻找更通用的越狱方式。

因为对于前沿模型来说,只能防住已知攻击是不够的。真正重要的是,当攻击者换一种说法、换一个场景、换一套策略时,安全系统还能不能保持稳定。

除了自动化红队,官方还与第三方专家合作,进行了大量人工红队测试。

自动化测试覆盖规模,人工专家测试创造性。两者结合,才能更接近真实世界中的复杂攻击方式。

九、预览期间用户可能会遇到什么?

在 GPT-5.6 预览期间,用户可能会遇到一些特殊情况。

比如:

  • 某些请求被拒绝
  • 某些任务生成速度变慢
  • 某些安全相关请求需要额外审核
  • 防御性任务可能偶尔被误判
  • 高风险任务会受到更严格限制

这些并不一定代表模型能力不足,而是因为 GPT-5.6 正在测试更复杂的安全系统。

尤其是在网络安全、生物学、自动化攻击等双用途领域,系统需要判断用户到底是在做合法研究,还是试图滥用模型能力。

这本身就是一个非常难的问题。

官方也承认,安全系统有时可能会干预合法工作。因此,预览期的反馈会用于减少误拦截、降低延迟,并改进系统对上下文的理解。

十、企业客户会怎么用?

对于企业客户来说,GPT-5.6 的安全机制也会更加灵活。

官方提到,未来会与企业客户一起制定更长期的方案,包括:

  • 隐私保护检测
  • 客户自主管理的安全控制
  • 按用户、客户或工作负载风险进行访问分级
  • 更适合企业合规要求的安全方案

这说明,未来的大模型不会只有一个统一入口,而是会越来越像企业级基础设施。

不同企业、不同团队、不同任务,可能会拥有不同级别的模型能力和安全策略。

十一、价格:Sol、Terra、Luna 分层明显

GPT-5.6 的 API 定价按每百万 token 计算。

具体价格如下:

模型输入价格输出价格定位
GPT-5.6 Sol5 美元 / 百万 token30 美元 / 百万 token旗舰能力
GPT-5.6 Terra2.5 美元 / 百万 token15 美元 / 百万 token均衡性价比
GPT-5.6 Luna1 美元 / 百万 token6 美元 / 百万 token快速低价

从价格看,Sol 面向高价值复杂任务,Terra 是主力生产力模型,Luna 则适合大规模低成本调用。

尤其是 Terra,性能接近 GPT-5.5,但价格只有一半,这可能会成为很多开发者和企业最关注的型号。

此外,GPT-5.6 还引入了更可预测的提示缓存机制。

它支持显式缓存断点,并且缓存最低有效期为 30 分钟。

对于 GPT-5.6 及之后的模型,缓存写入费用为未缓存输入费用的 1.25 倍,缓存读取费用则继续享受 90% 的输入费用折扣。

这对长上下文、多轮任务、固定系统提示、多代理工作流来说,会更利于控制成本。

十二、Cerebras 加速:Sol 最高每秒 750 个 token

官方还计划在 7 月把 GPT-5.6 Sol 部署到 Cerebras 上。

根据介绍,处理速度最高可达每秒 750 个 token。

如果这个速度能够稳定落地,会对前沿模型的使用体验产生明显影响。

过去很多高能力模型的问题是:能力很强,但速度慢、成本高、延迟明显。

如果 GPT-5.6 Sol 能在保持能力的同时大幅提升输出速度,那么它在企业级应用、代码生成、智能体任务和实时交互场景中的价值会进一步提高。

不过初期访问权限仍然会比较有限,只会先开放给部分客户。

十三、我的看法:GPT-5.6 不只是模型升级,而是一次产品体系升级

这次 GPT-5.6 系列最值得关注的地方,不只是“模型变强了”。

真正重要的是,它体现出大模型产品正在进入一个新的阶段。

过去我们讨论模型,更多是在比参数、比跑分、比上下文长度。

但 GPT-5.6 体现出的趋势是:

模型开始分层,能力开始分级,安全开始系统化,企业使用开始精细化。

Sol、Terra、Luna 三个型号,其实对应的是三类不同需求:

Sol 解决最难的问题; Terra 承担大多数生产力任务; Luna 负责低成本、高频率、大规模调用。

这和云计算的发展路径很像。

不是所有任务都需要最贵的服务器,也不是所有用户都需要旗舰模型。真正成熟的 AI 产品,应该让用户根据任务选择合适的能力层级。

而在安全方面,GPT-5.6 也释放出一个信号: 越强的模型,越不可能无门槛、无差别地开放所有能力。

未来的大模型开放,可能会越来越依赖身份、场景、权限、风险等级和企业治理机制。

这对普通用户来说,可能意味着某些高风险能力不会轻易开放; 但对企业、开发者和安全团队来说,也意味着更强的模型会以更可控的方式进入真实业务。

十四、总结

GPT-5.6 系列这次带来了三个核心变化:

第一,产品线更清晰。 Sol、Terra、Luna 分别对应旗舰、均衡和低成本场景。

第二,智能体能力更强。 尤其是在编码、生物学、网络安全等复杂任务中,模型不再只是回答问题,而是更接近能执行长期任务的智能助手。

第三,安全体系更重。 从模型训练、实时分类器、账户级审查,到自动化红队和人工红队,GPT-5.6 明显把安全放到了更核心的位置。

如果说 GPT-5.5 代表的是上一阶段的能力基线,那么 GPT-5.6 更像是一次面向“真实世界大规模使用”的系统升级。

它不只是更聪明,也更分层、更可控、更企业化。

接下来真正值得观察的是: 当 GPT-5.6 Sol、Terra 和 Luna 面向更广泛用户开放之后,它们会不会成为新一代 AI 应用开发的默认底座。

尤其是 Terra 和 Luna,可能才是影响最大、普及最快的两个型号。

因为真正改变生产力的,往往不只是最强模型,而是那个足够强、足够快、也足够便宜的模型。

点赞、关注,了解最新AI资讯