ChatGPT / gpt-oss

text

文本生成深度思考逻辑推理MoE架构
0 0 0 更新于 2025-09-22 21:39

概述

gpt-oss是Ollama 与 OpenAI 合作的开放权重模型,专为强大的推理、代理任务和多功能开发人员用例而设计。有20B 和 120B 两个模型,具有强大的推理能力、代理任务和丰富的开发者用例。

模型

名称尺寸语境输入Ollama 下载命令
gpt-oss:latest14GB128千文本ollama run gpt-oss
gpt-oss:20b14GB128千文本ollama run gpt-oss:20b
gpt-oss:120b65GB128千文本ollama run gpt-oss:120b
gpt-oss:20b-cloud-128千文本ollama run gpt-oss:20b-cloud
gpt-oss:120b-cloud-128千文本ollama run gpt-oss:120b-cloud

功能亮点

  • **Agentic 功能:**使用模型的本机功能进行函数调用、网页浏览(Ollama 正在引入可选择启用的内置网页搜索)、python 工具调用和结构化输出。
  • 完整的思路: 完全访问模型的推理过程,从而更轻松地进行调试并增强对输出的信任。
  • **可配置的推理力度:**根据您的特定用例和延迟需求轻松调整推理力度(低、中、高)。
  • 可微调: 通过参数微调完全根据您的特定用例定制模型。
  • **宽松的 Apache 2.0 许可证:**自由构建,不受版权限制或专利风险 - 非常适合实验、定制和商业部署。
模型名称MMLUGPQA DiamondHumanity's Last ExamAIME 2024AIME 2025
gpt-oss-120b90.080.119.096.697.9
gpt-oss-20b85.371.517.396.098.7
OpenAI o393.483.324.995.298.4
OpenAI o4-mini93.081.417.798.799.5

量化 - MXFP4 格式

OpenAI 利用量化技术来减少 gpt-oss 模型的内存占用。这些模型在后训练阶段会将混合专家 (MoE) 权重量化为 MXFP4 格式,其中每个参数的权重被量化为 4.25 位。MoE 权重占总参数数量的 90% 以上,将这些权重量化为 MXFP4 格式后,较小的模型可以在内存低至 16GB 的系统上运行,而较大的模型则可以在单个 80GB 的 GPU 上运行。

Ollama 原生支持 MXFP4 格式,无需额外量化或转换。Ollama 的新引擎已开发新内核,以支持 MXFP4 格式。

Ollama 与 OpenAI 合作,对其参考实现进行基准测试,以确保 Ollama 的实现具有相同的质量。

gpt-oss-20b 模型专为低延迟、本地或特殊用例而设计。

参考