Gemini / gemma4

Gemma 4Google DeepMindGemini
0 0 2 更新于 2026-05-06 22:03

Gemma 4 Ollama 标志 Gemma 是由 Google DeepMind 构建的开放模型系列。Gemma 4 模型是多模态的,可处理文本和图像输入并生成文本输出。

Gemma 4 引入了关键的能力和架构进步

  • 推理 – 该系列中的所有模型都被设计为高能力的推理者,具有可配置的思考模式。
  • 扩展的多模态 – 处理文本、图像,支持可变宽高比和分辨率(所有模型)。
  • 多样且高效的架构 – 提供不同规模的密集(Dense)和混合专家(MoE)变体,以实现可扩展的部署。
  • 针对设备端优化 – 较小的模型专为在笔记本电脑和移动设备上高效本地执行而设计。
  • 更大的上下文窗口 – 小型模型具有 128K 的上下文窗口,而中型模型支持 256K。
  • 增强的编码与智能体能力 – 在编码基准测试中取得了显著改进,同时支持原生函数调用,为强大的自主智能体提供动力。
  • 原生系统提示支持 – Gemma 4 引入了对 system 角色的原生支持,实现更结构化、更可控的对话。

模型

Ollama 云端

ollama run gemma4:31b-cloud

边缘模型

E2B 和 E4B 中的“E”代表“有效”(Effective)参数,专为边缘设备部署而设计。

有效 2B (E2B)

ollama run gemma4:e2b

有效 4B (E4B)

ollama run gemma4:e4b

工作站模型

这些模型专为本地前沿智能而设计。

26B(混合专家模型,4B 活跃参数)

ollama run gemma4:26b

31B(密集模型)

ollama run gemma4:31b

基准测试结果

这些模型针对大量不同的数据集和指标进行了评估,以涵盖文本生成的不同方面。表中标注的评估结果针对的是指令微调模型。

Gemma 4 31BGemma 4 26B A4BGemma 4 E4BGemma 4 E2BGemma 3 27B (无思考)
MMLU Pro85.2%82.6%69.4%60.0%67.6%
AIME 2026 无工具89.2%88.3%42.5%37.5%20.8%
LiveCodeBench v680.0%77.1%52.0%44.0%29.1%
Codeforces ELO21501718940633110
GPQA Diamond84.3%82.3%58.6%43.4%42.4%
Tau2 (3项平均)76.9%68.2%42.2%24.5%16.2%
HLE 无工具19.5%8.7%---
HLE 带搜索26.5%17.2%---
BigBench 超难74.4%64.8%33.1%21.9%19.3%
MMMLU88.4%86.3%76.6%67.4%70.7%
视觉
MMMU Pro76.9%73.8%52.6%44.2%49.7%
OmniDocBench 1.5 (平均编辑距离,越低越好)0.1310.1490.1810.2900.365
MATH-Vision85.6%82.4%59.5%52.4%46.0%
MedXPertQA MM61.3%58.1%28.7%23.5%-
音频
CoVoST--35.5433.47-
FLEURS (越低越好)--0.080.09-
长上下文
MRCR v2 8针 128k (平均)66.4%44.1%25.4%19.1%13.5%

模型信息

属性E2BE4B31B 密集模型
总参数量2.3B 有效 (含嵌入层 5.1B)4.5B 有效 (含嵌入层 8B)30.7B
层数354260
滑动窗口512 tokens512 tokens1024 tokens
上下文长度128K tokens128K tokens256K tokens
词汇量262K262K262K
支持模态文本、图像、音频文本、图像、音频文本、图像
视觉编码器参数量~150M~150M~550M
音频编码器参数量~300M~300M无音频

混合专家 (MoE) 模型

属性26B A4B MoE
总参数量25.2B
活跃参数量3.8B
层数30
滑动窗口1024 tokens
上下文长度256K tokens
词汇量262K
专家数量8 活跃 / 128 总计 和 1 共享
支持模态文本、图像
视觉编码器参数量~550M

最佳实践

为获得最佳性能,请使用以下配置和最佳实践:

1. 采样参数

在所有用例中使用以下标准化的采样配置:

  • temperature=1.0
  • top_p=0.95
  • top_k=64

2. 思考模式配置

请注意,Ollama 已为您处理了聊天模板的复杂性。

与 Gemma 3 相比,这些模型使用标准的 systemassistantuser 角色。要正确管理思考过程,请使用以下控制标记:

  • 触发思考: 通过在系统提示的开头包含 <|think|> 标记来启用思考。要禁用思考,请移除该标记。
  • 标准生成: 启用思考后,模型将使用以下结构输出其内部推理,然后是最终答案: <|channel>thought\n[内部推理]<channel|>
  • 禁用思考行为: 对于除 E2B 和 E4B 变体之外的所有模型,如果禁用思考,模型仍会生成标签,但会带有一个空的思考块: <|channel>thought\n<channel|>[最终答案]

3. 多轮对话

  • 历史记录中不包含思考内容:在多轮对话中,历史模型输出应仅包含最终响应。在下一轮用户输入开始之前,_不得添加_先前模型轮次的思考内容。

4. 模态顺序

  • 为获得多模态输入的最佳性能,请将图像和/或音频内容放在提示中的文本之前

5. 可变图像分辨率

除了可变宽高比之外,Gemma 4 还通过可配置的视觉 token 预算支持可变图像分辨率,该预算控制用于表示图像的 token 数量。更高的 token 预算可以保留更多视觉细节,但会带来额外的计算成本,而较低的预算则可以在不需要细粒度理解的任务中实现更快的推理。

  • 支持的 token 预算为:701402805601120
    • 对于分类、字幕生成或视频理解等任务,使用_较低预算_,因为在这些任务中,更快的推理和处理更多帧比细粒度细节更重要。
    • 对于 OCR、文档解析或阅读小文本等任务,使用_较高预算_。