亚马逊推出了一款名为 Nova Sonic 的 AI 语音模型,它不仅能理解语音内容,还能捕捉说话者的语气、犹豫等细微变化。这个模型整合了语音识别、回复生成和语音合成功能,能够实现更自然的对话交互。Nova Sonic 可以根据说话者的语气调整回应,理解对话中的停顿,并能适当处理打断等情况,从而提供更智能、更人性化的语音交互体验。
微软升级了Azure AI Speech服务,用户仅需几秒钟的语音样本即可快速生成逼真的语音复制品。该个人语音功能于2024年5月21日正式发布,采用名为"DragonV2.1Neural"的零样本文本转语音模型,支持100多种语言。微软表示新版本在语音自然度、韵律稳定性和发音准确性方面都有显著提升,可用于定制聊天机器人语音、视频配音等应用。尽管微软要求用户遵守使用政策并获得原说话者同意,但该技术仍可能被恶意使用。