北京时间6月27日凌晨,OpenAI正式发布GPT-5.6系列模型,这次模型版本命名非常有意思,首次采用天文学命名体系。
![]()
三款同步面世,但仅以"有限预览"形式向约20家经美国政府审批的合作企业开放,OpenAI正与政府合作争取未来几周内全面发布。
这套命名也意味着,GPT 系列正在从过去单一型号升级,走向更清晰的“产品分层”:你可以根据任务复杂度、速度需求和预算,选择不同模型。
这次 GPT-5.6 Sol 搭载了目前最强的一套安全防护体系。
原因也很直接:模型能力越强,能做的事情越多,风险自然也会变高。尤其是在网络安全、生物学、自动化任务等领域,模型已经不只是回答问题,而是越来越接近“可以协助完成复杂任务的智能体”。
因此,在正式大规模开放之前,GPT-5.6 系列会先面向一小部分值得信赖的合作伙伴开放有限预览。
这个过程,一方面是为了继续测试模型能力,另一方面也是为了验证安全机制是否足够稳定。尤其是针对高风险活动、敏感网络请求、重复滥用行为等场景,GPT-5.6 Sol 做了更严格的防护。
官方也明确提到,这次有限预览与美国政府的沟通和协作有关。换句话说,GPT-5.6 并不是直接一次性全面放开,而是先小范围测试,再逐步扩大开放。
不过官方也强调,这种政府预览流程不应该成为长期默认模式。因为真正需要这些工具的开发者、企业、网络安全防御人员和全球合作伙伴,也需要尽快获得前沿模型能力。
所以,这更像是一次短期过渡:先确保安全,再扩大开放。
GPT-5.6 中引入了一种新的推理机制,目的是让 Sol 在复杂任务上拥有更长、更深的思考空间。
过去很多模型的问题是:面对复杂任务时,可以给出答案,但中间规划、迭代和工具协调能力不够稳定。
而 GPT-5.6 Sol 强调的是“智能体能力”。
也就是说,它不只是回答你一个问题,而是可以更好地拆解任务、调用工具、修正错误,并持续推进复杂工作流。
这对于编码、科研、网络安全这类任务非常重要。
此外,GPT-5.6 还引入了一种新的模式,可以利用子智能体来加速复杂任务执行。通俗点说,就是让多个“子任务助手”协同工作,从而突破单个智能体的效率限制。
这也解释了为什么它在一些长期任务和复杂工作流测试中表现更强。
在编码工作流方面,GPT-5.6 Sol 在 Terminal-Bench 2.1 中表现非常突出。
Terminal-Bench 2.1 不是简单考代码题,而是更接近真实开发者使用命令行解决问题的过程。
它考察的是:
这类测试比普通代码题更难,因为它更接近真实工作流。
![]()
从结果看,GPT-5.6 Sol Ultra 得分为 91.9%,GPT-5.6 Sol 得分为 88.8%,处于非常领先的位置。
Terra 和 Luna 的表现也不弱,说明 GPT-5.6 系列整体在编码和工具协作能力上都有明显提升。
这对开发者来说,意义很大。
因为未来 AI 编程助手的竞争,不只是“会不会写代码”,而是能不能真正完成一整套开发任务。
在生物学工作流方面,GPT-5.6 Sol 也有明显提升。
官方提到了 GeneBench v1,这是一个用于评估长期基因组学和定量生物学分析能力的基准测试。
![]()
![]()
![]()
重点不是单纯回答生物学知识,而是看模型能否在复杂分析任务中持续推理,并且用更少的输出 token 得到更好的结果。
这点非常关键。
因为模型如果只是“说得多”,并不代表它更聪明。真正有效的模型,应该是用更少的输出、更高的效率,完成更准确的分析。
从这个角度看,GPT-5.6 Sol 的提升不是简单的“话更多”,而是推理效率更高。
GPT-5.6 Sol 被称为目前最强大的网络安全模型。
它在漏洞研究、漏洞分析、安全测试和补丁开发等方面都有明显提升。
![]()
比如在 ExploitBench 测试中,GPT-5.6 Sol 使用大约三分之一的输出 token,就可以达到接近 Mythos Preview 的水平。
![]()
![]()
![]()
这说明它在网络安全任务中的效率更高。
但这里也必须强调一点: 能力越强,安全边界越重要。
官方明确表示,GPT-5.6 Sol 更擅长帮助人们发现和修复漏洞,而不是可靠地执行端到端攻击。
也就是说,它的目标不是帮助攻击者,而是帮助防御者。
例如:
这些才是它希望支持的方向。
GPT-5.6 Sol 的能力提升,尤其是在网络安全领域,会带来一个现实问题:
同样一项技术,既可能用于防御,也可能用于攻击。
比如漏洞分析,对安全工程师来说是正常工作;但如果意图不对,也可能变成攻击准备。
所以 GPT-5.6 采用了更复杂的分层安全机制。
官方提到,这套机制不是只靠一个“拒绝回答”规则,而是由多层系统组成。
包括:
简单来说,就是不只看你这一句话,还会结合上下文、任务类型、行为模式和风险信号进行判断。
这套机制的目标,是尽量做到两件事:
第一,合法的防御性工作不要被误伤; 第二,被禁止的攻击性用途更难成功、更容易被发现。
GPT-5.6 系列还加入了实时网络和生物滥用分类器。
这是什么意思?
以前很多安全审核可能是在模型输出前后做判断,而现在则是在模型生成内容的过程中同步评估。
如果系统发现某个请求可能存在高风险,生成过程可能会被暂停,然后交给更强的推理模型进一步判断上下文。
如果最终判断内容不允许,就会在到达用户之前被拦截。
这会带来一个用户能明显感受到的变化:
有些请求可能会被拒绝; 有些请求可能会变慢; 有些合法但敏感的安全研究任务,也可能需要额外审核。
这也是预览期要重点测试的内容。
官方不仅想知道安全系统能不能拦住滥用,也想知道它会不会过度影响正常工作。
为了提升模型安全性,官方投入了超过 70 万个 A100 GPU 计算小时 用于自动化红队演练。
这个数字非常夸张。
所谓红队演练,就是站在攻击者角度去测试模型,看能不能绕过安全规则、诱导模型输出不该输出的内容,或者发现系统漏洞。
而自动化红队,就是用模型去攻击模型,用自动化方式大规模寻找问题。
这次测试重点不是找单个场景下的漏洞,而是寻找更通用的越狱方式。
因为对于前沿模型来说,只能防住已知攻击是不够的。真正重要的是,当攻击者换一种说法、换一个场景、换一套策略时,安全系统还能不能保持稳定。
除了自动化红队,官方还与第三方专家合作,进行了大量人工红队测试。
自动化测试覆盖规模,人工专家测试创造性。两者结合,才能更接近真实世界中的复杂攻击方式。
在 GPT-5.6 预览期间,用户可能会遇到一些特殊情况。
比如:
这些并不一定代表模型能力不足,而是因为 GPT-5.6 正在测试更复杂的安全系统。
尤其是在网络安全、生物学、自动化攻击等双用途领域,系统需要判断用户到底是在做合法研究,还是试图滥用模型能力。
这本身就是一个非常难的问题。
官方也承认,安全系统有时可能会干预合法工作。因此,预览期的反馈会用于减少误拦截、降低延迟,并改进系统对上下文的理解。
对于企业客户来说,GPT-5.6 的安全机制也会更加灵活。
官方提到,未来会与企业客户一起制定更长期的方案,包括:
这说明,未来的大模型不会只有一个统一入口,而是会越来越像企业级基础设施。
不同企业、不同团队、不同任务,可能会拥有不同级别的模型能力和安全策略。
GPT-5.6 的 API 定价按每百万 token 计算。
具体价格如下:
| 模型 | 输入价格 | 输出价格 | 定位 |
|---|---|---|---|
| GPT-5.6 Sol | 5 美元 / 百万 token | 30 美元 / 百万 token | 旗舰能力 |
| GPT-5.6 Terra | 2.5 美元 / 百万 token | 15 美元 / 百万 token | 均衡性价比 |
| GPT-5.6 Luna | 1 美元 / 百万 token | 6 美元 / 百万 token | 快速低价 |
从价格看,Sol 面向高价值复杂任务,Terra 是主力生产力模型,Luna 则适合大规模低成本调用。
尤其是 Terra,性能接近 GPT-5.5,但价格只有一半,这可能会成为很多开发者和企业最关注的型号。
此外,GPT-5.6 还引入了更可预测的提示缓存机制。
它支持显式缓存断点,并且缓存最低有效期为 30 分钟。
对于 GPT-5.6 及之后的模型,缓存写入费用为未缓存输入费用的 1.25 倍,缓存读取费用则继续享受 90% 的输入费用折扣。
这对长上下文、多轮任务、固定系统提示、多代理工作流来说,会更利于控制成本。
官方还计划在 7 月把 GPT-5.6 Sol 部署到 Cerebras 上。
根据介绍,处理速度最高可达每秒 750 个 token。
如果这个速度能够稳定落地,会对前沿模型的使用体验产生明显影响。
过去很多高能力模型的问题是:能力很强,但速度慢、成本高、延迟明显。
如果 GPT-5.6 Sol 能在保持能力的同时大幅提升输出速度,那么它在企业级应用、代码生成、智能体任务和实时交互场景中的价值会进一步提高。
不过初期访问权限仍然会比较有限,只会先开放给部分客户。
这次 GPT-5.6 系列最值得关注的地方,不只是“模型变强了”。
真正重要的是,它体现出大模型产品正在进入一个新的阶段。
过去我们讨论模型,更多是在比参数、比跑分、比上下文长度。
但 GPT-5.6 体现出的趋势是:
模型开始分层,能力开始分级,安全开始系统化,企业使用开始精细化。
Sol、Terra、Luna 三个型号,其实对应的是三类不同需求:
Sol 解决最难的问题; Terra 承担大多数生产力任务; Luna 负责低成本、高频率、大规模调用。
这和云计算的发展路径很像。
不是所有任务都需要最贵的服务器,也不是所有用户都需要旗舰模型。真正成熟的 AI 产品,应该让用户根据任务选择合适的能力层级。
而在安全方面,GPT-5.6 也释放出一个信号: 越强的模型,越不可能无门槛、无差别地开放所有能力。
未来的大模型开放,可能会越来越依赖身份、场景、权限、风险等级和企业治理机制。
这对普通用户来说,可能意味着某些高风险能力不会轻易开放; 但对企业、开发者和安全团队来说,也意味着更强的模型会以更可控的方式进入真实业务。
GPT-5.6 系列这次带来了三个核心变化:
第一,产品线更清晰。 Sol、Terra、Luna 分别对应旗舰、均衡和低成本场景。
第二,智能体能力更强。 尤其是在编码、生物学、网络安全等复杂任务中,模型不再只是回答问题,而是更接近能执行长期任务的智能助手。
第三,安全体系更重。 从模型训练、实时分类器、账户级审查,到自动化红队和人工红队,GPT-5.6 明显把安全放到了更核心的位置。
如果说 GPT-5.5 代表的是上一阶段的能力基线,那么 GPT-5.6 更像是一次面向“真实世界大规模使用”的系统升级。
它不只是更聪明,也更分层、更可控、更企业化。
接下来真正值得观察的是: 当 GPT-5.6 Sol、Terra 和 Luna 面向更广泛用户开放之后,它们会不会成为新一代 AI 应用开发的默认底座。
尤其是 Terra 和 Luna,可能才是影响最大、普及最快的两个型号。
因为真正改变生产力的,往往不只是最强模型,而是那个足够强、足够快、也足够便宜的模型。
点赞、关注,了解最新AI资讯