
gpt-oss是Ollama 与 OpenAI 合作的开放权重模型,专为强大的推理、代理任务和多功能开发人员用例而设计。有20B 和 120B 两个模型,具有强大的推理能力、代理任务和丰富的开发者用例。
| 名称 | 尺寸 | 语境 | 输入 | Ollama 下载命令 |
|---|---|---|---|---|
| gpt-oss:latest | 14GB | 128千 | 文本 | ollama run gpt-oss |
| gpt-oss:20b | 14GB | 128千 | 文本 | ollama run gpt-oss:20b |
| gpt-oss:120b | 65GB | 128千 | 文本 | ollama run gpt-oss:120b |
| gpt-oss:20b-cloud | - | 128千 | 文本 | ollama run gpt-oss:20b-cloud |
| gpt-oss:120b-cloud | - | 128千 | 文本 | ollama run gpt-oss:120b-cloud |
| 模型名称 | MMLU | GPQA Diamond | Humanity's Last Exam | AIME 2024 | AIME 2025 |
|---|---|---|---|---|---|
| gpt-oss-120b | 90.0 | 80.1 | 19.0 | 96.6 | 97.9 |
| gpt-oss-20b | 85.3 | 71.5 | 17.3 | 96.0 | 98.7 |
| OpenAI o3 | 93.4 | 83.3 | 24.9 | 95.2 | 98.4 |
| OpenAI o4-mini | 93.0 | 81.4 | 17.7 | 98.7 | 99.5 |
OpenAI 利用量化技术来减少 gpt-oss 模型的内存占用。这些模型在后训练阶段会将混合专家 (MoE) 权重量化为 MXFP4 格式,其中每个参数的权重被量化为 4.25 位。MoE 权重占总参数数量的 90% 以上,将这些权重量化为 MXFP4 格式后,较小的模型可以在内存低至 16GB 的系统上运行,而较大的模型则可以在单个 80GB 的 GPU 上运行。
Ollama 原生支持 MXFP4 格式,无需额外量化或转换。Ollama 的新引擎已开发新内核,以支持 MXFP4 格式。
Ollama 与 OpenAI 合作,对其参考实现进行基准测试,以确保 Ollama 的实现具有相同的质量。
gpt-oss-20b 模型专为低延迟、本地或特殊用例而设计。