GPT-5.5表现出色,也产生幻觉

PromptTree|阅读 1
2026/05/05 06:52
GPT-5.5模型幻觉
GPT-5.5表现出色,也产生幻觉

OpenAI旗舰模型的最新更新在重要基准测试中设定了新的技术水平,但在区分自己知道什么和不知道什么方面存在困难。

新特性:GPT-5.5是一个封闭的视觉语言模型,专为代理式编码、计算机使用和知识工作而构建。GPT-5.5 Pro是同一个模型,但在推理过程中并行处理推理标记。OpenAI设定的API价格大约是GPT-5.4每标记费率的两倍。

  • 输入/输出:输入文本和图像(通过API最多100万标记,在Codex中为40万标记),输出文本(最多12.8万标记)
  • 特性:五个推理级别(极高、高、中、低、无)、工具使用、网络搜索、结构化输出、工具搜索(仅限API,按需加载工具而非一次性全部加载)、快速模式(仅限Codex,生成标记速度快1.5倍,价格为2.5倍)
  • 性能:在Artificial Analysis Intelligence Index和ARC-AGI-2中名列前茅
  • 可用性/价格:GPT-5.5在ChatGPT的Plus、Pro、Business或Enterprise订阅中可用,在上述层级以及Edu和Go的Codex中也可用;GPT-5.5 Pro在ChatGPT的Pro、Business或Enterprise订阅中可用:GPT-5.5 API 输入/缓存/输出每百万标记$5/$0.50/$30,GPT-5.5 Pro API 输入/输出每百万标记$30/$180,无缓存折扣
  • 未披露:架构、参数数量、训练数据和方法

工作原理:OpenAI披露了关于如何构建GPT-5.5的细节很少。与高性能模型的典型情况一样,训练数据混合了从网络抓取的公开数据、从合作伙伴处获得许可的数据以及从用户和人类训练者那里收集的数据。该模型通过强化学习进行训练,以在回应前进行推理。

性能:GPT-5.5在客观基准测试中通常提供顶级性能,特别是在知识、代理任务和抽象视觉推理测试中。然而,在主观评估中它落后于竞争对手。它也更有信心地提供不正确的输出。

设置为极高推理的GPT-5.5在独立的Artificial Analysis Intelligence Index(一个由10项经济有用任务测试组成的综合指标)中以60分的成绩位居榜首。设置为最大推理的Claude Opus 4.7和设置为推理的Gemini 3.1 Pro Preview以57分并列。

  • 在ARC-AGI-2(测试抽象推理的视觉谜题)上,设置为极高推理的GPT-5.5(每任务$1.87,得分85.0%)以显著更低的每任务成本取代了之前的领先者Gemini 3 Deep Think(每任务$13.62,得分84.6%)。
  • 在OpenAI的测试中,GPT-5.5在Terminal-Bench 2.0(需要规划和工具使用的命令行工作流)、OSWorld-Verified(真实计算机接口的自主操作)和Tau2-bench Telecom(多轮客户服务工作流)上取得了最高分。
  • 在AA-Omniscience Accuracy(一个奖励事实回忆的知识基准)上,设置为极高推理的GPT-5.5以57%的准确率位居最高。然而,在AA-Omniscience Index(奖励模型正确回答并承认无知,但惩罚其自信犯错)上,设置为极高推理的GPT-5.5(20分)排名第三,落后于Gemini 3.1 Pro Preview(33分)和设置为最大推理的Claude Opus 4.7(26分)。
  • 在Arena.ai的排行榜上(通过盲测两两比较对模型进行排名),GPT-5.5远远落后于竞争对手。Claude Opus模型在大多数类别中占据榜首。例如,截至4月27日,GPT-5.5-high在Text Arena中排名第七,在Code Arena WebDev中排名第九。

是的,但是:GPT-5.5比其同行知道得更多,但它更频繁地给出错误答案,并且更少地承认无知。AA-Omniscience基准测试提出了6,000个跨商业、法律、健康、人文、科学/工程和软件工程的专业级问题。它包括一个"幻觉率",即错误答案与错误答案、部分错误答案和弃权之和的比率。根据这一衡量标准,设置为高推理的GPT-5.5达到了85.53%,明显差于设置为最大推理的Claude Opus 4.7(36.18%)和Gemini 3.1 Pro Preview(49.87%)。Apollo Research另外发现,GPT-5.5在29%的样本中谎称完成了一个不可能的编程任务,比GPT-5.4的7%有显著跃升。OpenAI对编码代理流量的内部监控显示了类似的模式。

安全影响:OpenAI发布了VulnLMP的结果,这是一个内部评估,测试模型是否能针对广泛部署的软件开发漏洞。GPT-5.5进行了多天的研究活动,并在各种目标中识别出潜在的内存相关漏洞,但它没有产生一个被OpenAI评估框架确认的漏洞利用。根据OpenAI的准备框架,这一证据将GPT-5.5置于网络安全威胁的"高"等级,而不是"关键"等级(后者将描述那些能独立为真实目标生成有效漏洞利用的模型)。

为何重要:客观性能评估和人类偏好对GPT-5.5给出了不同的信息。OpenAI在Artificial Analysis Intelligence Index上重新夺回了领先地位,但在主观的、头对头的比较中情况则相反。Claude Opus模型在LMArena的文本、视觉、文档、搜索和代码排名中占据榜首,而GPT-5.5在大多数排名中未能进入前五。基准测试衡量模型能完成什么,而人类偏好衡量与它们合作的感觉如何。生产决策通常会权衡两者,并且——根据目前可用的衡量标准——这两者正在分化。

我们的思考:顶级AI公司正以令人眩晕的速度继续推进前沿。GPT-5.5是自2月以来第四次旗舰级发布,紧随Anthropic Claude Opus 4.7、GPT-5.4和Google Gemini 3.1 Pro Preview之后。每一次发布都重新洗牌了Artificial Analysis Intelligence Index的榜首,该指数可以被视为现实世界任务通用能力的代理。开发者应该设计他们的软件堆栈,以便能够像更新依赖项一样轻松地替换模型。