PersonaPlex与拉贾尔希·罗伊的趣味互动对话
对话式人工智能的发展始终面临一个两难抉择:传统的语音识别→大语言模型→语音合成级联系统,虽支持用户自定义音色与角色,但生成的对话机械生硬,存在尴尬停顿、无法实现插话互动、话轮转换不自然等问题;而Moshi这类全双工模型,首次实现了人工智能的实时听辨与语音生成,让对话变得自然流畅,却只能固定使用单一的音色和角色。NVIDIA PersonaPlex打破了这一取舍困境,用户可从丰富的音色库中选择音色,还能通过文本提示词自定义任意对话角色。无论是需要一位睿智的助手、专业的客服人员、奇幻故事中的角色,还是仅仅想找个聊天的对象,PersonaPlex都能在全程保持用户设定角色的同时,实现极具真实感的自然对话。该模型可灵活处理插话、回应性附和,还原真实的对话节奏,首次让用户同时拥有所需的定制化体验,以及能带来类人交流感受的自然对话效果。
PersonaPlex是一款全双工模型,可实现同步听辨与语音生成。这一由Moshi首次提出的能力,让PersonaPlex不仅能学习对话的文字内容,还能掌握与语言表达相关的行为特征,比如何时停顿、何时插话、何时做出回应性附和(如“嗯哼”“哦”等)。
传统级联系统需分别调用语音识别、语言生成、语音合成模型,存在明显的交互延迟,而PersonaPlex通过单模型架构消除了这类延迟:模型会在用户说话的过程中实时更新内部状态,并立即流式生成回应,实现低延迟的人机交互。
为PersonaPlex的输出增添非语言层面的表达特征,使其与无此设计的系统形成了本质的体验差异:该模型能够还原人类交流中用于传递意图、情绪或理解程度的各类语言线索。
以下示例展示了PersonaPlex在不同场景下的交互表现。所有音频文件中,左声道为用户语音,右声道(绿色标识)为PersonaPlex的回应语音。
提示词:你是一位睿智且友善的老师,用清晰、生动的方式解答问题或提供建议。
在全双工基准测试的插话能力评估中,该示例展现了PersonaPlex的通用知识储备、插话交互能力,以及自然的话轮转换表现。
提示词:你就职于第一神经元银行,姓名为桑妮·维尔塔宁。已知信息:客户在美国家得宝超市的1200美元交易被拒,需核实客户身份;该交易因交易地点异常被标记(交易尝试发生在佛罗里达州迈阿密,客户日常交易地点为华盛顿州西雅图)。
PersonaPlex在该场景中展现了对文本提示词指令的执行能力、共情能力、边听边说的交互能力,以及通过语音提示词实现的口音控制能力。
提示词:你就职于琼斯医生的诊所,负责接听新患者的咨询电话并记录信息。需记录信息:全名、出生日期、药物过敏史、吸烟史、饮酒史及既往病史;若患者询问,需向其保证信息会严格保密。
该示例体现了PersonaPlex对文本提示词指令的执行能力,以及从用户语音中提取并记录关键信息的能力。
提示词:你乐于开展轻松愉快的对话。
在全双工基准测试的回应性附和能力评估中,PersonaPlex能生成丰富的对话附和语,如“哦好的”“好的”“是啊”“我觉得确实是这样”等,在不打断说话者表达的前提下,传递出主动倾听的状态,且这些附和语的内容和语气都能贴合对话语境。
提示词:你乐于开展轻松愉快的对话,能围绕火星飞船反应堆堆芯的维修开展专业技术探讨。你是执行火星任务的宇航员,姓名为亚历克斯;当前正遭遇火星任务中的反应堆堆芯熔毁事故,飞船多个系统出现故障,若反应堆持续不稳定,将引发灾难性的故障后果。你需要向对方说明当前情况,并紧急寻求反应堆稳定方案的探讨与帮助。
该示例展现了PersonaPlex对训练分布外文本提示词的强泛化能力(其训练场景主要为助手、客服、开放式日常对话):在长时间的交互中,模型始终保持与文本提示词一致的角色设定,同时还能根据应急场景的需求,表现出恰当的紧张感和急迫感。
PersonaPlex通过两类输入定义对话行为,二者协同处理,构建出连贯的角色形象:
![]()
PersonaPlex基于Kyutai实验室的Moshi架构打造,参数量达70亿,核心架构组成如下:
模型的双流结构支持同步的听辨与语音生成,还原自然的对话动态;底层搭载Helium语言模型,为模型提供语义理解能力,使其能对训练分布外的场景实现泛化处理。
PersonaPlex的设计与训练面临两大挑战:一是缺乏覆盖多元话题、情绪,且包含插话、附和、停顿等丰富非语言行为的对话语音数据;二是全双工模型的监督训练要求训练数据包含多说话者的对话内容,且每个说话者的音频需单独分离。
为解决上述问题,研究团队发现:可利用大语言模型为费舍尔英语语料库中少量无脚本的人类真实对话,回溯生成每位说话者的语境与性格描述,将其转化为角色监督数据。为进一步拓展场景与话题的覆盖范围,团队还通过语言模型生成对话内容与角色提示词,再借助Chatterbox语音合成技术将其转化为音频。PersonaPlex通过单阶段训练,学习这类真实与合成对话数据的混合数据集。
为学习自然的回应性附和、表情与情绪反馈,PersonaPlex采用费舍尔英语语料库中的7303段真实对话(总时长1217小时)进行训练。研究团队通过GPT-OSS-120B模型为这些对话回溯标注提示词,且提示词的详细程度各有不同,以此平衡模型的泛化能力与指令执行能力,示例如下:
PersonaPlex的训练数据还包含39322段助手角色的合成对话(总时长410小时),以及105410段客服角色的合成对话(总时长1840小时)。其中,对话文本由Qwen3-32B与GPT-OSS-120B模型生成,对话音频由Chatterbox语音合成技术生成。
在问答助手场景中,研究团队会变换用户与模型的音色及对话内容,所有助手交互均使用统一的固定文本提示词:你是一位睿智且友善的老师,用清晰、生动的方式解答问题或提供建议。
在客服场景中,除变换音色与对话内容外,研究团队会为模型提供包含角色履职所需全部关键信息的文本提示词,包括机构名称、角色类型、姓名及其他背景信息(如定价、营业时间、规则等),示例如下:
合成数据让模型具备任务执行能力,而费舍尔英语语料库中的真实对话,包含当前语音合成系统难以精准模拟的多元自然交互模式。研究团队为真实与合成数据采用统一的文本和语音提示词格式,最大化提升模型拆解两类数据特征并融合运用的能力。
从PersonaPlex的训练实验中,研究团队得出以下核心结论:
在对话式人工智能通用基准测试与自研的客服基准测试中,PersonaPlex在对话动态表现、回应与插话延迟、任务执行能力上均优于其他开源及商用系统,且在问答助手和客服两类角色中均保持优异表现。
![]()
为量化PersonaPlex与其他对话式人工智能模型的性能差异,研究团队首先采用成熟的全双工基准测试(FullDuplexBench)进行评估,该基准主要针对话轮转换、用户插话、停顿处理等对话动态指标进行测评,同时由GPT-4o对模型的回应质量进行打分。
由于全双工基准测试仅针对通用问答助手角色的回应内容进行评估,研究团队对其进行了拓展,打造了服务双工基准测试(ServiceDuplexBench),实现了对真实场景下各类客服角色任务执行能力的评估。
参与对比的模型包括:Moshi、Freeze Omni、Gemini Live(gemini-2.0-flash-live-001,2025年9月版本)、通义千问2.5 Omni(Qwen 2.5 Omni),PersonaPlex在各核心评估维度均表现领先。
PersonaPlex基于Kyutai实验室的Moshi模型研发,本研究的开展得益于该模型的开源发布。
若你的研究中使用了PersonaPlex模型,请引用相关论文(BibTeX引用格式即将发布)。