↑

ChatGPT / gpt-oss

text

文本生成深度思考逻辑推理MoE架构

0 0 0 更新于 2025-09-22 21:39

概述

gpt-oss是Ollama 与 OpenAI 合作的开放权重模型，专为强大的推理、代理任务和多功能开发人员用例而设计。有20B 和 120B 两个模型，具有强大的推理能力、代理任务和丰富的开发者用例。

模型

名称	尺寸	语境	输入	Ollama 下载命令
gpt-oss:latest	14GB	128千	文本	`ollama run gpt-oss`
gpt-oss:20b	14GB	128千	文本	`ollama run gpt-oss:20b`
gpt-oss:120b	65GB	128千	文本	`ollama run gpt-oss:120b`
gpt-oss:20b-cloud	-	128千	文本	`ollama run gpt-oss:20b-cloud`
gpt-oss:120b-cloud	-	128千	文本	`ollama run gpt-oss:120b-cloud`

功能亮点

**Agentic 功能：**使用模型的本机功能进行函数调用、网页浏览（Ollama 正在引入可选择启用的内置网页搜索）、python 工具调用和结构化输出。
完整的思路： 完全访问模型的推理过程，从而更轻松地进行调试并增强对输出的信任。
**可配置的推理力度：**根据您的特定用例和延迟需求轻松调整推理力度（低、中、高）。
可微调： 通过参数微调完全根据您的特定用例定制模型。
**宽松的 Apache 2.0 许可证：**自由构建，不受版权限制或专利风险 - 非常适合实验、定制和商业部署。

模型名称	MMLU	GPQA Diamond	Humanity's Last Exam	AIME 2024	AIME 2025
gpt-oss-120b	90.0	80.1	19.0	96.6	97.9
gpt-oss-20b	85.3	71.5	17.3	96.0	98.7
OpenAI o3	93.4	83.3	24.9	95.2	98.4
OpenAI o4-mini	93.0	81.4	17.7	98.7	99.5

量化 - MXFP4 格式

OpenAI 利用量化技术来减少 gpt-oss 模型的内存占用。这些模型在后训练阶段会将混合专家 (MoE) 权重量化为 MXFP4 格式，其中每个参数的权重被量化为 4.25 位。MoE 权重占总参数数量的 90% 以上，将这些权重量化为 MXFP4 格式后，较小的模型可以在内存低至 16GB 的系统上运行，而较大的模型则可以在单个 80GB 的 GPU 上运行。

Ollama 原生支持 MXFP4 格式，无需额外量化或转换。Ollama 的新引擎已开发新内核，以支持 MXFP4 格式。

Ollama 与 OpenAI 合作，对其参考实现进行基准测试，以确保 Ollama 的实现具有相同的质量。

gpt-oss-20b 模型专为低延迟、本地或特殊用例而设计。