波森AI研究团队开发的EmergentTTS-Eval是一个针对文本转语音(TTS)系统的全面评估框架,专注于测试六大挑战场景:情感表达、非语言线索、外语词汇、语法复杂性、复杂发音和问题表达。研究创新地采用大型音频语言模型作为评判者,从一小组种子提示迭代生成了1,645个测试用例。评估结果显示OpenAI的GPT-4o-Audio表现最佳,同时研究证实了模型评判结果与人类偏好高度一致。该工作已开源,为TTS技术评估提供了可扩展、客观且全面的新标准。
至顶网 科技行者 2025-06-04 12:57:20