卡内基梅隆大学与本田研究所日本分部的研究团队通过数据扩充和清洗技术,打造了新一代开源语音模型OWSM v4。研究者们开发了一套三步数据清洗流程,从原始YODAS数据集中提取出166,000小时高质量语音数据,涵盖75种语言。基于此数据训练的OWSM v4模型系列在多语言语音识别、语言识别和翻译任务上大幅超越先前版本,甚至在多个场景中与工业级模型Whisper和MMS比肩。该研究证明,即使在学术资源有限的条件下,开源模型通过有效的数据清洗也能实现卓越性能。
至顶网 科技行者 2025-07-07 17:37:47