↑

文心一言 / ERNIE 4.5

multimodal

文本生成图像理解

0 0 0 更新于 2025-09-17 17:15

模型介绍

文心大模型4.5是百度自主研发的新一代原生多模态基础大模型，通过多个模态联合建模实现协同优化，多模态理解能力优秀；具备更精进的语言能力，理解、生成、逻辑、记忆能力全面提升，去幻觉、逻辑推理、代码能力显著提升。

技术亮点

ERNIE 4.5 系列模型优越的性能主要来源于以下几个关键技术点：

多模态混合专家模型预训练：通过在文本和视觉两种模态上进行联合训练，更好地捕捉多模态信息中的细微差别，提升在文本生成、图像理解以及多模态推理等任务中的表现。为了让两种模态学习时互相提升，提出一种多模态异构混合专家模型结构，结合了多维旋转位置编码，并且在损失函数计算时，增强了不同专家间的正交性，同时对不同模态间的词元进行平衡优化，达到多模态相互促进提升的目的。高效且易扩展的模型架构和训练基建：为了更加高效的训练大规模多模态混合专家模型，创新提出异构混合并行和多级负载平衡技术。通过在设备端实现专家并行、内存高效的流水线调度以及FP8混合精度计算，最终实现了高效的预训练性能。同时，在推理阶段提出了多>专家协同并行的量化方法，以实现无损量化。最终模型基于飞桨构建，可在各种硬件平台上实现高性能推理。特定模态的后训练：为了满足实际场景的不同要求，针对性的对预训练模型进行了精调。其中文本大语言模型针对通用语言理解和生成进行了优化，视觉大语言模型侧重于视觉语言理解，支持思维和非思维模式。每个模型采用了SFT、DPO和UPO的多阶段后训练，并使用和实际使用场景一致的数据集提升最终模型的效果。