↑

Gemini / gemma4

Gemma 4Google DeepMindGemini

0 0 2 更新于 2026-05-06 22:03

Gemma 4 Ollama 标志 Gemma 是由 Google DeepMind 构建的开放模型系列。Gemma 4 模型是多模态的，可处理文本和图像输入并生成文本输出。

Gemma 4 引入了关键的能力和架构进步：

Ollama 云端


1
ollama run gemma4:31b-cloud

边缘模型

E2B 和 E4B 中的“E”代表“有效”（Effective）参数，专为边缘设备部署而设计。

有效 2B (E2B)


1
ollama run gemma4:e2b

有效 4B (E4B)


1
ollama run gemma4:e4b

工作站模型

这些模型专为本地前沿智能而设计。

26B（混合专家模型，4B 活跃参数）


1
ollama run gemma4:26b

31B（密集模型）


1
ollama run gemma4:31b

基准测试结果

这些模型针对大量不同的数据集和指标进行了评估，以涵盖文本生成的不同方面。表中标注的评估结果针对的是指令微调模型。

	Gemma 4 31B	Gemma 4 26B A4B	Gemma 4 E4B	Gemma 4 E2B	Gemma 3 27B (无思考)
MMLU Pro	85.2%	82.6%	69.4%	60.0%	67.6%
AIME 2026 无工具	89.2%	88.3%	42.5%	37.5%	20.8%
LiveCodeBench v6	80.0%	77.1%	52.0%	44.0%	29.1%
Codeforces ELO	2150	1718	940	633	110
GPQA Diamond	84.3%	82.3%	58.6%	43.4%	42.4%
Tau2 (3项平均)	76.9%	68.2%	42.2%	24.5%	16.2%
HLE 无工具	19.5%	8.7%	-	-	-
HLE 带搜索	26.5%	17.2%	-	-	-
BigBench 超难	74.4%	64.8%	33.1%	21.9%	19.3%
MMMLU	88.4%	86.3%	76.6%	67.4%	70.7%
视觉
MMMU Pro	76.9%	73.8%	52.6%	44.2%	49.7%
OmniDocBench 1.5 (平均编辑距离，越低越好)	0.131	0.149	0.181	0.290	0.365
MATH-Vision	85.6%	82.4%	59.5%	52.4%	46.0%
MedXPertQA MM	61.3%	58.1%	28.7%	23.5%	-
音频
CoVoST	-	-	35.54	33.47	-
FLEURS (越低越好)	-	-	0.08	0.09	-
长上下文
MRCR v2 8针 128k (平均)	66.4%	44.1%	25.4%	19.1%	13.5%

属性	E2B	E4B	31B 密集模型
总参数量	2.3B 有效 (含嵌入层 5.1B)	4.5B 有效 (含嵌入层 8B)	30.7B
层数	35	42	60
滑动窗口	512 tokens	512 tokens	1024 tokens
上下文长度	128K tokens	128K tokens	256K tokens
词汇量	262K	262K	262K
支持模态	文本、图像、音频	文本、图像、音频	文本、图像
视觉编码器参数量	~150M	~150M	~550M
音频编码器参数量	~300M	~300M	无音频

为获得最佳性能，请使用以下配置和最佳实践：

在所有用例中使用以下标准化的采样配置：

请注意，Ollama 已为您处理了聊天模板的复杂性。

与 Gemma 3 相比，这些模型使用标准的 system、assistant 和 user 角色。要正确管理思考过程，请使用以下控制标记：

触发思考： 通过在系统提示的开头包含 <|think|> 标记来启用思考。要禁用思考，请移除该标记。
标准生成： 启用思考后，模型将使用以下结构输出其内部推理，然后是最终答案： <|channel>thought\n[内部推理]<channel|>
禁用思考行为： 对于除 E2B 和 E4B 变体之外的所有模型，如果禁用思考，模型仍会生成标签，但会带有一个空的思考块： <|channel>thought\n<channel|>[最终答案]

除了可变宽高比之外，Gemma 4 还通过可配置的视觉 token 预算支持可变图像分辨率，该预算控制用于表示图像的 token 数量。更高的 token 预算可以保留更多视觉细节，但会带来额外的计算成本，而较低的预算则可以在不需要细粒度理解的任务中实现更快的推理。

支持的 token 预算为：70、140、280、560 和 1120。
- 对于分类、字幕生成或视频理解等任务，使用_较低预算_，因为在这些任务中，更快的推理和处理更多帧比细粒度细节更重要。
- 对于 OCR、文档解析或阅读小文本等任务，使用_较高预算_。