
文心大模型4.5是百度自主研发的新一代原生多模态基础大模型,通过多个模态联合建模实现协同优化,多模态理解能力优秀;具备更精进的语言能力,理解、生成、逻辑、记忆能力全面提升,去幻觉、逻辑推理、代码能力显著提升。
ERNIE 4.5 系列模型优越的性能主要来源于以下几个关键技术点:
多模态混合专家模型预训练: 通过在文本和视觉两种模态上进行联合训练,更好地捕捉多模态信息中的细微差别,提升在文本生成、图像理解以及多模态推理等任务中的表现。为了让两种模态学习时互相提升,提出一种多模态异构混合专家模型结构,结合了多维旋转位置 编码,并且在损失函数计算时,增强了不同专家间的正交性,同时对不同模态间的词元进行平衡优化,达到多模态相互促进提升的目的。 高效且易扩展的模型架构和训练基建: 为了更加高效的训练大规模多模态混合专家模型,创新提出异构混合并行和多级负载平衡技术。通过在设备端实现专家并行、内存高效的流水线调度以及FP8混合精度计算,最终实现了高效的预训练性能。同时,在推理阶段提出了多>专家协同并行的量化方法,以实现无损量化。最终模型基于飞桨构建,可在各种硬件平台上实现高性能推理。 特定模态的后训练: 为了满足实际场景的不同要求,针对性的对预训练模型进行了精调。其中文本大语言模型针对通用语言理解和生成进行了优化,视觉大语言模型侧重于视觉语言理解,支持思维和非思维模式。每个模型采用了SFT、DPO和UPO的多阶段后训练,并使用和实际使用场景一致的数据集提升最终模型的效果。