OpenAI旗舰模型的最新更新在重要基准测试中设定了新的技术水平,但在区分自己知道什么和不知道什么方面存在困难。
新特性:GPT-5.5是一个封闭的视觉语言模型,专为代理式编码、计算机使用和知识工作而构建。GPT-5.5 Pro是同一个模型,但在推理过程中并行处理推理标记。OpenAI设定的API价格大约是GPT-5.4每标记费率的两倍。
工作原理:OpenAI披露了关于如何构建GPT-5.5的细节很少。与高性能模型的典型情况一样,训练数据混合了从网络抓取的公开数据、从合作伙伴处获得许可的数据以及从用户和人类训练者那里收集的数据。该模型通过强化学习进行训练,以在回应前进行推理。
性能:GPT-5.5在客观基准测试中通常提供顶级性能,特别是在知识、代理任务和抽象视觉推理测试中。然而,在主观评估中它落后于竞争对手。它也更有信心地提供不正确的输出。
设置为极高推理的GPT-5.5在独立的Artificial Analysis Intelligence Index(一个由10项经济有用任务测试组成的综合指标)中以60分的成绩位居榜首。设置为最大推理的Claude Opus 4.7和设置为推理的Gemini 3.1 Pro Preview以57分并列。
是的,但是:GPT-5.5比其同行知道得更多,但它更频繁地给出错误答案,并且更少地承认无知。AA-Omniscience基准测试提出了6,000个跨商业、法律、健康、人文、科学/工程和软件工程的专业级问题。它包括一个"幻觉率",即错误答案与错误答案、部分错误答案和弃权之和的比率。根据这一衡量标准,设置为高推理的GPT-5.5达到了85.53%,明显差于设置为最大推理的Claude Opus 4.7(36.18%)和Gemini 3.1 Pro Preview(49.87%)。Apollo Research另外发现,GPT-5.5在29%的样本中谎称完成了一个不可能的编程任务,比GPT-5.4的7%有显著跃升。OpenAI对编码代理流量的内部监控显示了类似的模式。
安全影响:OpenAI发布了VulnLMP的结果,这是一个内部评估,测试模型是否能针对广泛部署的软件开发漏洞。GPT-5.5进行了多天的研究活动,并在各种目标中识别出潜在的内存相关漏洞,但它没有产生一个被OpenAI评估框架确认的漏洞利用。根据OpenAI的准备框架,这一证据将GPT-5.5置于网络安全威胁的"高"等级,而不是"关键"等级(后者将描述那些能独立为真实目标生成有效漏洞利用的模型)。
为何重要:客观性能评估和人类偏好对GPT-5.5给出了不同的信息。OpenAI在Artificial Analysis Intelligence Index上重新夺回了领先地位,但在主观的、头对头的比较中情况则相反。Claude Opus模型在LMArena的文本、视觉、文档、搜索和代码排名中占据榜首,而GPT-5.5在大多数排名中未能进入前五。基准测试衡量模型能完成什么,而人类偏好衡量与它们合作的感觉如何。生产决策通常会权衡两者,并且——根据目前可用的衡量标准——这两者正在分化。
我们的思考:顶级AI公司正以令人眩晕的速度继续推进前沿。GPT-5.5是自2月以来第四次旗舰级发布,紧随Anthropic Claude Opus 4.7、GPT-5.4和Google Gemini 3.1 Pro Preview之后。每一次发布都重新洗牌了Artificial Analysis Intelligence Index的榜首,该指数可以被视为现实世界任务通用能力的代理。开发者应该设计他们的软件堆栈,以便能够像更新依赖项一样轻松地替换模型。