OmniResponse是由KAUST和埃克塞特大学研究团队开发的创新系统,首次实现了在线多模态对话响应生成(OMCRG)任务。该系统能够实时处理说话者的视频和音频输入,并生成与之同步的听众面部表情和语音反馈,通过引入文本作为中间模态并利用Chrono-Text和TempoVoice两个关键模块解决了多模态同步生成的难题。研究团队还构建了ResponseNet数据集作为评估基准,实验表明OmniResponse在语义内容、音视频同步和生成质量方面显著优于基线模型,为人机交互、元宇宙体验和心理健康干预等应用领域开辟了新可能。
至顶网 科技行者 2025-06-05 18:01:39