NVIDIA / nemotron3

NVIDIANemotron 3
0 0 0 更新于 2026-04-29 17:17

NVIDIA Nemotron 3 Nano Omni 是一款多模态大语言模型,能够统一理解视频、音频、图像和文本,以支持企业级问答、摘要、转录和文档智能工作流。它在 Nemotron Nano 系列基础上扩展了集成视频+语音理解、图形用户界面(GUI)、光学字符识别(OCR)和语音转录能力,能够端到端处理会议记录、媒体与娱乐(M&E)资产、培训视频以及复杂商业文档等丰富的企业内容。NVIDIA Nemotron 3 Nano Omni 由 NVIDIA 作为 Nemotron 模型系列的一部分开发。

该模型可用于商业用途。

该模型基于 Qwen3-VL-30B-A3B-Instruct、Qwen3.5-122B-A10B、Qwen3.5-397B-A17B、Qwen2.5-VL-72B-Instruct 和 gpt-oss-120b 进行了改进。

许可/使用条款

管辖条款:使用此模型需遵守 NVIDIA 开放模型协议

使用场景

该模型专为需要多模态理解能力的企业客户设计。预期用户包括:- 客户服务应用(例如,通过 OCR 识别 DoorDash 在指定地址的配送视频、得来速订单验证)- 媒体与娱乐(M&E)——视频与语音分析、密集字幕、视频搜索与摘要- AI 助手的文档智能(合同、SOW/MSA、科学发现、金融文档)- AI 代理应用的 GUI 自动化(事件管理、代理搜索、浏览器代理、邮件代理)