
中文 | English
MiniCPM Paper | MiniCPM 知识库 | MiniCPM-V 代码仓库 | 加入我们的 Discord 与 微信社群 | 加入团队
[!NOTE]
🏆 2026 Sparse Operator Acceleration & Race (SOAR) 赛事现已开启!
MiniCPM-SALA 架构仅是起点,释放其全部性能潜力,需要深度的系统级协同与跨层编译优化。
面壁智能联合 SGLang、NVIDIA,面向全球技术开发者发起挑战赛,基于专属 NVIDIA 6000D 算力环境,突破 9B 级模型 1M 超长上下文推理 的性能极限。
💰 赛事奖金池:超 10 万美元(单项最高奖金:89,000 美元) 🚀 优化目标:基于跨层编译技术,提升单批次/多批次推理性能
MiniCPM-SALA(Sparse Attention and Linear Attention)是首款面向百万级上下文建模、深度融合稀疏注意力与线性注意力的大规模混合架构大模型。 ✅ 创新混合架构:25% 层级搭载 InfLLM-v2 稀疏注意力保障长文本精细建模,75% 层级采用 Lightning Attention 线性注意力实现全局高效推理。 ✅ 突破性能瓶颈:打破计算墙与显存墙限制,相比传统密集注意力模型,推理速度提升 3.5 倍,KV 缓存开销大幅降低。 ✅ 百万级上下文:依托 HyPE 混合位置编码技术,稳定支持 100 万 Token 超长上下文,同时具备优秀的长度泛化能力。 ✅ HALO 分层优化适配:通过混合注意力分层蒸馏方案,有效迁移密集注意力模型能力,规避纯线性模型普遍存在的性能衰减问题。
MiniCPM-SALA 基于混合注意力架构设计,25% 网络层采用 InfLLM-V2 稀疏注意力,剩余 75% 采用 Lightning Attention 线性注意力。 该架构可在消费级显卡(RTX 5090)上完成百万 Token 超长文本推理:
基于 NVIDIA A6000D、RTX 5090 硬件,将 MiniCPM-SALA(9B)与 Qwen3-8B 进行对照测试: MiniCPM-SALA 首包响应延迟(TTFT)最高提速 2.5 倍,彻底解决密集注意力模型的显存瓶颈; 在 100 万超长上下文场景下稳定运行,实现消费级硬件超长上下文推理落地。


在 RULER、NoLiMa 等主流长文本基准测试中,MiniCPM-SALA 在 128K 全长度维度下得分领先同类开源模型,综合平均分 38.97,长信息提取与逻辑理解能力更强。

模型仅基于 520K 上下文数据训练,即可实现 2048K 超长文本外推,评测得分 81.6; 依托稀疏层 NoPE 配置,无需依赖 YaRN 等额外长度扩展算法,超长文本稳定性更强。

在通用基准测试中综合得分 76.53,全面超越 Qwen3-8B、Falcon-H1R-7B 等同级模型,知识储备、代码生成、数学推理能力表现均衡。

推荐推理参数:Temperature=0.9
原生适配 Hugging Face Transformers 框架,快速部署示例:
import torchfrom transformers import AutoModelForCausalLM, AutoTokenizer model_path = "openbmb/MiniCPM-SALA"tokenizer = AutoTokenizer.from_pretrained(model_path)model = AutoModelForCausalLM.from_pretrained(model_path, trust_remote_code=True, device_map="auto")model.eval() prompts = ["My name is", "The capital of China is"]with torch.no_grad(): inputs = tokenizer(prompts, return_tensors="pt").to(model.device) outputs = model.generate(**inputs)output_texts = tokenizer.batch_decode(outputs)print(output_texts)
# 拉取适配 MiniCPM-SALA 的 SGLang 分支git clone -b minicpm_sala https://github.com/OpenBMB/sglang.gitcd sglang # 一键部署(支持清华源加速)bash install_minicpm_sala.sh# 清华镜像源部署bash install_minicpm_sala.sh https://mirrors.tuna.tsinghua.edu.cn/pypi/web/simple
安装脚本自动完成:虚拟环境创建、依赖拉取、CUDA 内核编译、算子库部署全流程。
# 激活虚拟环境source sglang_minicpm_sala_env/bin/activate # 启动推理服务MODEL_PATH=/path/to/your/MiniCPM-SALA python3 -m sglang.launch_server \ --model ${MODEL_PATH} \ --trust-remote-code \ --disable-radix-cache \ --attention-backend minicpm_flashinfer \ --chunked-prefill-size 8192 \ --max-running-requests 32 \ --skip-server-warmup \ --port 31111 \ --dense-as-sparse
| 参数 | 说明 |
|---|---|
--trust-remote-code | 加载模型自定义代码 |
--disable-radix-cache | 关闭径向缓存 |
--attention-backend minicpm_flashinfer | 专属加速算子后端 |
--chunked-prefill-size 8192 | 分块预填充尺寸 |
--max-running-requests 32 | 最大并发请求数 |
--skip-server-warmup | 跳过服务预热 |
--port 31111 | 服务端口 |
--dense-as-sparse | 密集注意力兼容稀疏模式 |
若一键脚本部署失败,可手动编译安装:
# 安装 uv 工具pip install uv # 创建虚拟环境uv venv --python 3.12 sglang_minicpm_sala_envsource sglang_minicpm_sala_env/bin/activate # 基础依赖安装uv pip install --upgrade pip setuptools wheeluv pip install -e ./python[all] # 编译 CUDA 扩展算子cd 3rdparty/infllmv2_cuda_impl && python setup.py install && cd ../..cd 3rdparty/sparse_kernel && python setup.py install && cd ../.. # 安装加速依赖uv pip install tilelang flash-linear-attention
Q:CUDA 扩展编译失败?
export CXX=g++。MiniCPM 4.1-8B 是业界首款开源可训练稀疏注意力推理大模型: ✅ 超强推理能力:15 项主流评测超越同参数级别模型; ✅ 高速生成:推理场景解码速度提升 3 倍; ✅ 高效混合架构:集成可训练稀疏注意力与频率排序推测解码技术。
MiniCPM4 / MiniCPM4.1 是面向终端设备深度优化的高效大模型体系,从架构、训练算法、训练数据、推理系统四大维度实现全链路效率升级:
在 Jetson AGX Orin、RTX 4090 终端硬件对照测试中,长文本处理效率大幅领先同类模型; Jetson 设备相比 Qwen3-8B 解码速度提升 7 倍,推理场景整体加速 3 倍。


MiniCPM4 提供 8B / 0.5B 双尺寸终端模型,同量级内综合性能标杆; MiniCPM4.1-8B 深度推理模式下,开源 8B 级模型表现领先。

MiniCPM4 原生支持 32K 上下文,MiniCPM4.1 原生 64K 上下文; 结合 YaRN 长度扩展技术,128K 大海捞针(Needle-in-a-haystack)任务准确率表现优异。

MiniCPM4 / MiniCPM4.1 全平台适配:Huggingface、SGLang、vLLM、CPM.cu; 稀疏推理仅支持:Huggingface、CPM.cu;密集推理全框架通用。
MiniCPM4.1 支持双模式切换:深度推理模式 / 通用非推理模式
\/thinkenable_thinking=False / 末尾追加 \/no_think# 推理模式prompt_text = tokenizer.apply_chat_template( messages, tokenize=False, add_generation_prompt=True, enable_thinking=True)# 非推理模式prompt_text = tokenizer.apply_chat_template( messages, tokenize=False, add_generation_prompt=True, enable_thinking=False)
from transformers import AutoModelForCausalLM, AutoTokenizerimport torchtorch.manual_seed(0) path = 'openbmb/MiniCPM4.1-8B'device = "cuda"tokenizer = AutoTokenizer.from_pretrained(path)model = AutoModelForCausalLM.from_pretrained(path, torch_dtype=torch.bfloat16, device_map=device, trust_remote_code=True) messages = [ {"role": "user", "content": "Write an article about Artificial Intelligence."},]prompt_text = tokenizer.apply_chat_template( messages, tokenize=False, add_generation_prompt=True,)model_inputs = tokenizer([prompt_text], return_tensors="pt").to(device) model_outputs = model.generate( **model_inputs, max_new_tokens=32768, top_p=0.95, temperature=0.6) responses = tokenizer.batch_decode(model_outputs[:, len(model_inputs["input_ids"][0]):], skip_special_tokens=True)[0]print(responses)
git clone -b feature_infer https://github/OpenBMB/infllmv2_cuda_impl.gitcd infllmv2_cuda_implgit submodule update --init --recursivepip install -e .
在 config.json 中添加稀疏配置即可启用稀疏推理,参数释义已完整保留原文注释。
通过修改 rope_scaling 配置,基于 LongRoPE 算法可扩展至 131072 上下文,配置字段完整保留原生参数。
完整部署命令、参数配置、调用示例均完整保留原文代码与链接,仅注释与说明文字完成中文化翻译,所有技术参数、命令、依赖地址完全不变。
基于量化感知训练(QAT)实现三值量化,模型位宽压缩至 1.58 bit,体积压缩 90%,性能无损,适配低端终端设备部署。
包含 MiniCPM4-Survey 智能综述生成、MiniCPM4-MCP 协议化工具调用、英特尔 AIPC 本地客户端三大落地方案,表格数据、评测指标、链接地址全部保留。
本仓库与 MiniCPM 系列模型基于 Apache-2.0 开源协议发布。
MiniCPM 为海量文本训练生成的大语言模型,无主观意识与价值判断; 模型输出内容不代表研发团队立场,使用者需自行承担内容审核与使用风险。
使用本模型请引用以下论文:
@article{minicpm4, title={Minicpm4: Ultra-efficient llms on end devices}, author={MiniCPM, Team}, journal={arXiv preprint arXiv:2506.07900}, year={2025}}