↑

NVIDIA / nemotron3

NVIDIANemotron 3

0 0 0 更新于 2026-04-29 17:17

NVIDIA Nemotron 3 Nano Omni 是一款多模态大语言模型，能够统一理解视频、音频、图像和文本，以支持企业级问答、摘要、转录和文档智能工作流。它在 Nemotron Nano 系列基础上扩展了集成视频+语音理解、图形用户界面（GUI）、光学字符识别（OCR）和语音转录能力，能够端到端处理会议记录、媒体与娱乐（M&E）资产、培训视频以及复杂商业文档等丰富的企业内容。NVIDIA Nemotron 3 Nano Omni 由 NVIDIA 作为 Nemotron 模型系列的一部分开发。

该模型可用于商业用途。

该模型基于 Qwen3-VL-30B-A3B-Instruct、Qwen3.5-122B-A10B、Qwen3.5-397B-A17B、Qwen2.5-VL-72B-Instruct 和 gpt-oss-120b 进行了改进。

许可/使用条款

管辖条款：使用此模型需遵守 NVIDIA 开放模型协议

使用场景

该模型专为需要多模态理解能力的企业客户设计。预期用户包括：- 客户服务应用（例如，通过 OCR 识别 DoorDash 在指定地址的配送视频、得来速订单验证）- 媒体与娱乐（M&E）——视频与语音分析、密集字幕、视频搜索与摘要- AI 助手的文档智能（合同、SOW/MSA、科学发现、金融文档）- AI 代理应用的 GUI 自动化（事件管理、代理搜索、浏览器代理、邮件代理）