↑

Open发布世上最强模型 GPT-5.6三档模型（Sol/Terra/Luna）

PromptTree阅读 2

2026/06/29 08:58

OpenGPT-5.6SolTerraLuna

GPT-5.6 系列即将开启有限预览，包含旗舰模型 **Sol**、均衡模型 **Terra** 和高性价比模型 **Luna**。其中 Sol 主打最强推理、编码、生物学和网络安全能力；Terra 性能接近 GPT-5.5，但价格约为其一半；Luna 则面向低成本、高频调用场景。GPT-5.6 还引入新的推理机制、子智能体协作模式和更完善的分层安全体系。官方将先向可信合作伙伴开放预览，继续测试安全与可用性，随后逐步面向 ChatGPT、Codex 和 API 用户开放。

概述

北京时间6月27日凌晨，OpenAI正式发布GPT-5.6系列模型，这次模型版本命名非常有意思，首次采用天文学命名体系。

旗舰版本Sol（太阳）代表这一代模型的最高能力
均衡型Terra（地球）性能接近 GPT-5.5，但价格大约只有后者的一半
轻量版Luna（月亮）高性价比款，用更低的成本提供足够强的能力

三款同步面世，但仅以"有限预览"形式向约20家经美国政府审批的合作企业开放，OpenAI正与政府合作争取未来几周内全面发布。

这套命名也意味着，GPT 系列正在从过去单一型号升级，走向更清晰的“产品分层”：你可以根据任务复杂度、速度需求和预算，选择不同模型。

一、为什么 GPT-5.6 要先做有限预览？

这次 GPT-5.6 Sol 搭载了目前最强的一套安全防护体系。

原因也很直接：模型能力越强，能做的事情越多，风险自然也会变高。尤其是在网络安全、生物学、自动化任务等领域，模型已经不只是回答问题，而是越来越接近“可以协助完成复杂任务的智能体”。

因此，在正式大规模开放之前，GPT-5.6 系列会先面向一小部分值得信赖的合作伙伴开放有限预览。

这个过程，一方面是为了继续测试模型能力，另一方面也是为了验证安全机制是否足够稳定。尤其是针对高风险活动、敏感网络请求、重复滥用行为等场景，GPT-5.6 Sol 做了更严格的防护。

官方也明确提到，这次有限预览与美国政府的沟通和协作有关。换句话说，GPT-5.6 并不是直接一次性全面放开，而是先小范围测试，再逐步扩大开放。

不过官方也强调，这种政府预览流程不应该成为长期默认模式。因为真正需要这些工具的开发者、企业、网络安全防御人员和全球合作伙伴，也需要尽快获得前沿模型能力。

所以，这更像是一次短期过渡：先确保安全，再扩大开放。

二、GPT-5.6 Sol 的核心能力：更强的深度推理

GPT-5.6 中引入了一种新的推理机制，目的是让 Sol 在复杂任务上拥有更长、更深的思考空间。

过去很多模型的问题是：面对复杂任务时，可以给出答案，但中间规划、迭代和工具协调能力不够稳定。

而 GPT-5.6 Sol 强调的是“智能体能力”。

也就是说，它不只是回答你一个问题，而是可以更好地拆解任务、调用工具、修正错误，并持续推进复杂工作流。

这对于编码、科研、网络安全这类任务非常重要。

此外，GPT-5.6 还引入了一种新的模式，可以利用子智能体来加速复杂任务执行。通俗点说，就是让多个“子任务助手”协同工作，从而突破单个智能体的效率限制。

这也解释了为什么它在一些长期任务和复杂工作流测试中表现更强。

三、编码能力：Terminal-Bench 2.1 创下新标杆

在编码工作流方面，GPT-5.6 Sol 在 Terminal-Bench 2.1 中表现非常突出。

Terminal-Bench 2.1 不是简单考代码题，而是更接近真实开发者使用命令行解决问题的过程。

它考察的是：

能不能理解任务
能不能规划步骤
能不能操作工具
能不能发现错误
能不能迭代修复
能不能最终完成目标

这类测试比普通代码题更难，因为它更接近真实工作流。

从结果看，GPT-5.6 Sol Ultra 得分为 91.9%，GPT-5.6 Sol 得分为 88.8%，处于非常领先的位置。

Terra 和 Luna 的表现也不弱，说明 GPT-5.6 系列整体在编码和工具协作能力上都有明显提升。

这对开发者来说，意义很大。

因为未来 AI 编程助手的竞争，不只是“会不会写代码”，而是能不能真正完成一整套开发任务。

四、生物学能力：更少输出，完成更复杂分析

在生物学工作流方面，GPT-5.6 Sol 也有明显提升。

官方提到了 GeneBench v1，这是一个用于评估长期基因组学和定量生物学分析能力的基准测试。

重点不是单纯回答生物学知识，而是看模型能否在复杂分析任务中持续推理，并且用更少的输出 token 得到更好的结果。

这点非常关键。

因为模型如果只是“说得多”，并不代表它更聪明。真正有效的模型，应该是用更少的输出、更高的效率，完成更准确的分析。

从这个角度看，GPT-5.6 Sol 的提升不是简单的“话更多”，而是推理效率更高。

五、网络安全能力：更强，但也更谨慎

GPT-5.6 Sol 被称为目前最强大的网络安全模型。

它在漏洞研究、漏洞分析、安全测试和补丁开发等方面都有明显提升。

比如在 ExploitBench 测试中，GPT-5.6 Sol 使用大约三分之一的输出 token，就可以达到接近 Mythos Preview 的水平。

这说明它在网络安全任务中的效率更高。

但这里也必须强调一点： 能力越强，安全边界越重要。

官方明确表示，GPT-5.6 Sol 更擅长帮助人们发现和修复漏洞，而不是可靠地执行端到端攻击。

也就是说，它的目标不是帮助攻击者，而是帮助防御者。

例如：

代码审查
漏洞研究
补丁开发
调试分析
安全教育
防御测试
企业安全加固

这些才是它希望支持的方向。

六、为什么这次安全机制这么重？

GPT-5.6 Sol 的能力提升，尤其是在网络安全领域，会带来一个现实问题：

同样一项技术，既可能用于防御，也可能用于攻击。

比如漏洞分析，对安全工程师来说是正常工作；但如果意图不对，也可能变成攻击准备。

所以 GPT-5.6 采用了更复杂的分层安全机制。

官方提到，这套机制不是只靠一个“拒绝回答”规则，而是由多层系统组成。

包括：

模型训练阶段内置的安全保护
生成过程中的实时风险检测
账户级别的风险信号分析
差异化访问控制
持续监控
滥用行为处理
自动化和人工红队测试

简单来说，就是不只看你这一句话，还会结合上下文、任务类型、行为模式和风险信号进行判断。

这套机制的目标，是尽量做到两件事：

第一，合法的防御性工作不要被误伤；第二，被禁止的攻击性用途更难成功、更容易被发现。

七、实时分类器：生成过程中也会被检查

GPT-5.6 系列还加入了实时网络和生物滥用分类器。

这是什么意思？

以前很多安全审核可能是在模型输出前后做判断，而现在则是在模型生成内容的过程中同步评估。

如果系统发现某个请求可能存在高风险，生成过程可能会被暂停，然后交给更强的推理模型进一步判断上下文。

如果最终判断内容不允许，就会在到达用户之前被拦截。

这会带来一个用户能明显感受到的变化：

有些请求可能会被拒绝；有些请求可能会变慢；有些合法但敏感的安全研究任务，也可能需要额外审核。

这也是预览期要重点测试的内容。

官方不仅想知道安全系统能不能拦住滥用，也想知道它会不会过度影响正常工作。

八、自动化红队：花费超过 70 万个 A100 GPU 小时

为了提升模型安全性，官方投入了超过 70 万个 A100 GPU 计算小时 用于自动化红队演练。

这个数字非常夸张。

所谓红队演练，就是站在攻击者角度去测试模型，看能不能绕过安全规则、诱导模型输出不该输出的内容，或者发现系统漏洞。

而自动化红队，就是用模型去攻击模型，用自动化方式大规模寻找问题。

这次测试重点不是找单个场景下的漏洞，而是寻找更通用的越狱方式。

因为对于前沿模型来说，只能防住已知攻击是不够的。真正重要的是，当攻击者换一种说法、换一个场景、换一套策略时，安全系统还能不能保持稳定。

除了自动化红队，官方还与第三方专家合作，进行了大量人工红队测试。

自动化测试覆盖规模，人工专家测试创造性。两者结合，才能更接近真实世界中的复杂攻击方式。

九、预览期间用户可能会遇到什么？

在 GPT-5.6 预览期间，用户可能会遇到一些特殊情况。

比如：

某些请求被拒绝
某些任务生成速度变慢
某些安全相关请求需要额外审核
防御性任务可能偶尔被误判
高风险任务会受到更严格限制

这些并不一定代表模型能力不足，而是因为 GPT-5.6 正在测试更复杂的安全系统。

尤其是在网络安全、生物学、自动化攻击等双用途领域，系统需要判断用户到底是在做合法研究，还是试图滥用模型能力。

这本身就是一个非常难的问题。

官方也承认，安全系统有时可能会干预合法工作。因此，预览期的反馈会用于减少误拦截、降低延迟，并改进系统对上下文的理解。

十、企业客户会怎么用？

对于企业客户来说，GPT-5.6 的安全机制也会更加灵活。

官方提到，未来会与企业客户一起制定更长期的方案，包括：

隐私保护检测
客户自主管理的安全控制
按用户、客户或工作负载风险进行访问分级
更适合企业合规要求的安全方案

这说明，未来的大模型不会只有一个统一入口，而是会越来越像企业级基础设施。

不同企业、不同团队、不同任务，可能会拥有不同级别的模型能力和安全策略。

十一、价格：Sol、Terra、Luna 分层明显

GPT-5.6 的 API 定价按每百万 token 计算。

具体价格如下：

模型	输入价格	输出价格	定位
GPT-5.6 Sol	5 美元 / 百万 token	30 美元 / 百万 token	旗舰能力
GPT-5.6 Terra	2.5 美元 / 百万 token	15 美元 / 百万 token	均衡性价比
GPT-5.6 Luna	1 美元 / 百万 token	6 美元 / 百万 token	快速低价

从价格看，Sol 面向高价值复杂任务，Terra 是主力生产力模型，Luna 则适合大规模低成本调用。

尤其是 Terra，性能接近 GPT-5.5，但价格只有一半，这可能会成为很多开发者和企业最关注的型号。

此外，GPT-5.6 还引入了更可预测的提示缓存机制。

它支持显式缓存断点，并且缓存最低有效期为 30 分钟。

对于 GPT-5.6 及之后的模型，缓存写入费用为未缓存输入费用的 1.25 倍，缓存读取费用则继续享受 90% 的输入费用折扣。

这对长上下文、多轮任务、固定系统提示、多代理工作流来说，会更利于控制成本。

十二、Cerebras 加速：Sol 最高每秒 750 个 token

官方还计划在 7 月把 GPT-5.6 Sol 部署到 Cerebras 上。

根据介绍，处理速度最高可达每秒 750 个 token。

如果这个速度能够稳定落地，会对前沿模型的使用体验产生明显影响。

过去很多高能力模型的问题是：能力很强，但速度慢、成本高、延迟明显。

如果 GPT-5.6 Sol 能在保持能力的同时大幅提升输出速度，那么它在企业级应用、代码生成、智能体任务和实时交互场景中的价值会进一步提高。

不过初期访问权限仍然会比较有限，只会先开放给部分客户。

十三、我的看法：GPT-5.6 不只是模型升级，而是一次产品体系升级

这次 GPT-5.6 系列最值得关注的地方，不只是“模型变强了”。

真正重要的是，它体现出大模型产品正在进入一个新的阶段。

过去我们讨论模型，更多是在比参数、比跑分、比上下文长度。

但 GPT-5.6 体现出的趋势是：

模型开始分层，能力开始分级，安全开始系统化，企业使用开始精细化。

Sol、Terra、Luna 三个型号，其实对应的是三类不同需求：

Sol 解决最难的问题； Terra 承担大多数生产力任务； Luna 负责低成本、高频率、大规模调用。

这和云计算的发展路径很像。

不是所有任务都需要最贵的服务器，也不是所有用户都需要旗舰模型。真正成熟的 AI 产品，应该让用户根据任务选择合适的能力层级。

而在安全方面，GPT-5.6 也释放出一个信号：越强的模型，越不可能无门槛、无差别地开放所有能力。

未来的大模型开放，可能会越来越依赖身份、场景、权限、风险等级和企业治理机制。

这对普通用户来说，可能意味着某些高风险能力不会轻易开放；但对企业、开发者和安全团队来说，也意味着更强的模型会以更可控的方式进入真实业务。

十四、总结

GPT-5.6 系列这次带来了三个核心变化：

第一，产品线更清晰。 Sol、Terra、Luna 分别对应旗舰、均衡和低成本场景。

第二，智能体能力更强。尤其是在编码、生物学、网络安全等复杂任务中，模型不再只是回答问题，而是更接近能执行长期任务的智能助手。

第三，安全体系更重。从模型训练、实时分类器、账户级审查，到自动化红队和人工红队，GPT-5.6 明显把安全放到了更核心的位置。

如果说 GPT-5.5 代表的是上一阶段的能力基线，那么 GPT-5.6 更像是一次面向“真实世界大规模使用”的系统升级。

它不只是更聪明，也更分层、更可控、更企业化。

接下来真正值得观察的是：当 GPT-5.6 Sol、Terra 和 Luna 面向更广泛用户开放之后，它们会不会成为新一代 AI 应用开发的默认底座。

尤其是 Terra 和 Luna，可能才是影响最大、普及最快的两个型号。

因为真正改变生产力的，往往不只是最强模型，而是那个足够强、足够快、也足够便宜的模型。

点赞、关注，了解最新AI资讯