
Gemma 是由 Google DeepMind 构建的开放模型系列。Gemma 4 模型是多模态的,可处理文本和图像输入并生成文本输出。
Gemma 4 引入了关键的能力和架构进步:
system 角色的原生支持,实现更结构化、更可控的对话。Ollama 云端
ollama run gemma4:31b-cloud
边缘模型
E2B 和 E4B 中的“E”代表“有效”(Effective)参数,专为边缘设备部署而设计。
有效 2B (E2B)
ollama run gemma4:e2b
有效 4B (E4B)
ollama run gemma4:e4b
工作站模型
这些模型专为本地前沿智能而设计。
26B(混合专家模型,4B 活跃参数)
ollama run gemma4:26b
31B(密集模型)
ollama run gemma4:31b
这些模型针对大量不同的数据集和指标进行了评估,以涵盖文本生成的不同方面。表中标注的评估结果针对的是指令微调模型。
| Gemma 4 31B | Gemma 4 26B A4B | Gemma 4 E4B | Gemma 4 E2B | Gemma 3 27B (无思考) | |
|---|---|---|---|---|---|
| MMLU Pro | 85.2% | 82.6% | 69.4% | 60.0% | 67.6% |
| AIME 2026 无工具 | 89.2% | 88.3% | 42.5% | 37.5% | 20.8% |
| LiveCodeBench v6 | 80.0% | 77.1% | 52.0% | 44.0% | 29.1% |
| Codeforces ELO | 2150 | 1718 | 940 | 633 | 110 |
| GPQA Diamond | 84.3% | 82.3% | 58.6% | 43.4% | 42.4% |
| Tau2 (3项平均) | 76.9% | 68.2% | 42.2% | 24.5% | 16.2% |
| HLE 无工具 | 19.5% | 8.7% | - | - | - |
| HLE 带搜索 | 26.5% | 17.2% | - | - | - |
| BigBench 超难 | 74.4% | 64.8% | 33.1% | 21.9% | 19.3% |
| MMMLU | 88.4% | 86.3% | 76.6% | 67.4% | 70.7% |
| 视觉 | |||||
| MMMU Pro | 76.9% | 73.8% | 52.6% | 44.2% | 49.7% |
| OmniDocBench 1.5 (平均编辑距离,越低越好) | 0.131 | 0.149 | 0.181 | 0.290 | 0.365 |
| MATH-Vision | 85.6% | 82.4% | 59.5% | 52.4% | 46.0% |
| MedXPertQA MM | 61.3% | 58.1% | 28.7% | 23.5% | - |
| 音频 | |||||
| CoVoST | - | - | 35.54 | 33.47 | - |
| FLEURS (越低越好) | - | - | 0.08 | 0.09 | - |
| 长上下文 | |||||
| MRCR v2 8针 128k (平均) | 66.4% | 44.1% | 25.4% | 19.1% | 13.5% |
| 属性 | E2B | E4B | 31B 密集模型 |
|---|---|---|---|
| 总参数量 | 2.3B 有效 (含嵌入层 5.1B) | 4.5B 有效 (含嵌入层 8B) | 30.7B |
| 层数 | 35 | 42 | 60 |
| 滑动窗口 | 512 tokens | 512 tokens | 1024 tokens |
| 上下文长度 | 128K tokens | 128K tokens | 256K tokens |
| 词汇量 | 262K | 262K | 262K |
| 支持模态 | 文本、图像、音频 | 文本、图像、音频 | 文本、图像 |
| 视觉编码器参数量 | ~150M | ~150M | ~550M |
| 音频编码器参数量 | ~300M | ~300M | 无音频 |
| 属性 | 26B A4B MoE |
|---|---|
| 总参数量 | 25.2B |
| 活跃参数量 | 3.8B |
| 层数 | 30 |
| 滑动窗口 | 1024 tokens |
| 上下文长度 | 256K tokens |
| 词汇量 | 262K |
| 专家数量 | 8 活跃 / 128 总计 和 1 共享 |
| 支持模态 | 文本、图像 |
| 视觉编码器参数量 | ~550M |
为获得最佳性能,请使用以下配置和最佳实践:
在所有用例中使用以下标准化的采样配置:
temperature=1.0top_p=0.95top_k=64请注意,Ollama 已为您处理了聊天模板的复杂性。
与 Gemma 3 相比,这些模型使用标准的 system、assistant 和 user 角色。要正确管理思考过程,请使用以下控制标记:
<|think|> 标记来启用思考。要禁用思考,请移除该标记。<|channel>thought\n[内部推理]<channel|><|channel>thought\n<channel|>[最终答案]除了可变宽高比之外,Gemma 4 还通过可配置的视觉 token 预算支持可变图像分辨率,该预算控制用于表示图像的 token 数量。更高的 token 预算可以保留更多视觉细节,但会带来额外的计算成本,而较低的预算则可以在不需要细粒度理解的任务中实现更快的推理。