你是否设想过这样一种场景:不用依赖网络,仅凭一台搭载消费级显卡的个人电脑,就能拥有一个能「同步看、实时听、即时说,还能主动提醒」的类人AI助手?它既能敏锐捕捉环境中的视觉、听觉变化,精准理解你的每一个意图,又能全程守护你的隐私安全,不泄露任何敏感信息。
这不是遥远的科技幻想,而是MiniCPM-o 4.5已经实现的现实。作为业界首个端到端全双工全模态大模型,它仅凭9B参数,就打破了端侧AI的部署壁垒,让普惠型高端AI助手走进了普通用户的生活。自2026年2月正式发布以来,MiniCPM-o 4.5在Hugging Face平台的下载量已轻松突破25万+,成为备受开发者和用户青睐的端侧多模态模型。
Hugging Face地址:https://huggingface.co/openbmb/MiniCPM-o-4_5
MiniCPM-o 4.5 是由面壁智能(ModelBest)与清华大学(OpenBMB)于 2026 年初联合推出的一款端侧原生全模态大模型。作为“面壁小钢炮”系列的最新旗舰,该模型虽然参数量仅有 9B,但展现出了比肩甚至超越诸多云端千亿级闭源模型(如 GPT-4o、Gemini 2.5 Flash 等)的惊人实力。
面壁智能联合 OpenBMB 开源社区、清华大学 THUNLP 实验室和 THUMAI 实验室正式发布 MiniCPM-o 4.5 技术报告。首次公开面壁智能在全双工全模态交互领域的核心技术:
Omni-Flow 流式全模态框架:
![]()
https://github.com/OpenBMB/MiniCPM-o/blob/main/docs/MiniCPM_o_45_technical_report.pdf
同时,MiniCPM-o 4.5 同步推出:
平台: Windows 下载链接: GitHub:https://github.com/tc-mb/llama.cpp-omni/releases/latest/download/Comni-Setup-win64.exe; ModelScope:https://modelscope.cn/models/OpenBMB/MiniCPM-o-4_5-gguf/resolve/master/app/Comni-Windows-x64.exe 硬件要求:12GB+ 显存 GPU,如 RTX 5070 / RTX 5080 / RTX 5090 / RTX 4090 平台: macOS 下载链接: GitHub:https://github.com/tc-mb/llama.cpp-omni/releases/latest/download/Comni-macOS-arm64.dmg; ModelScope:https://modelscope.cn/models/OpenBMB/MiniCPM-o-4_5-gguf/resolve/master/app/Comni-macOS-arm64.dmg 硬件要求:M1-M5 Max / M5 Pro 建议内存 16G 以上
原生全双工多模态:该模型摒弃了传统语音助手基于 VAD(静音检测)的“机械等待”机制。它在接收持续音视频流的同时,能够在模型内部高频进行语义理解,自主判断“用户是否在说话”及“自己是否该插嘴”,实现了边听、边看、边想、边说的极致流畅体验。
![]()
底层基座:MiniCPM-o 4.5 采用了端到端的全模态架构,融合了 Qwen3-8B(语言)、SigLip2(视觉)、Whisper-medium(听觉)和 CosyVoice2(语音生成),总参数量控制在极度紧凑的 9B。
模型性能不靠算力堆叠,依托自研端到端架构 + 多阶段渐进式训练;面壁智能与清华团队共同优化,将视觉、听觉、语言全双工多模态能力压缩至9B参数量。
整体架构模式抛弃传统 ASR→LLM→TTS 级联结构,采用端到端全模态一体化架构。
这个架构最巧妙的设计之一是:LLM 基座只生成文本 Token,而专业的语音合成任务「外包」给了一个更小、更专业的语音解码器。
这避免了让大模型直接处理复杂的声学任务,从而保证了其核心的语言和推理能力不受损害。同时通过各模块的token级稠密连接,保证了模型能力的高上限。
同时通过各模块的token级稠密连接,保证了模型能力的高上限。
为解决多模态冲突、数据低效问题,采用四阶段渐进式训练方案:
参数规模小不等于模型性能弱。
MiniCPM-o 4.5 在多个维度的评测中,展现了与 SOTA 大模型掰手腕的实力。
![]()
推理效率:在显存方面,MiniCPM-o 4.5 的 INT4 量化版仅需 12GB 显存即可运行,几乎是 Qwen3-Omni INT4 版本的一半,使得其在消费级显卡上的本地部署成为可能。在性能方面,MiniCPM-o 4.5 的推理速度也更快,其 INT4 版本的解码速度达到了 212 tokens/s,比 Qwen3 快了 40% 以上,响应延迟更低。
![]()
人类交流是流畅、并行的。我们边听边思考,甚至可以打断对方。
但过去,AI 与人类的交互模式是半双工的,像用对讲机:你说完,它才能处理;它说的时候,又听不见你的新指令。
AI 与人类的不同频,使得大多数用户无法在与大模型产品的交互中获得良好的体验感,甚至由于交流的「时空割裂」逐渐失去耐心。长此以往,大模型在多模态场景的落地无疑大大受阻。
不难看出,MiniCPM-o 4.5 并未盲目追逐云端大模型的参数竞赛,而是精准锚定端侧高阶智能这条高价值赛道。这款模型用实力印证:10B 参数量级之内,AI 同样能实现高清多模态深度理解、复杂逻辑推理,以及自然流畅的全双工实时对话体验,综合能力全面拉满。凭借亮眼的综合表现,它已然成为 2026 年端侧开源 AI 领域的标杆之作。
评论的小伙伴,你觉得 「全双工」会成为 AI 交互的下一站吗?