MagiCodec是一种由上海交通大学与字节跳动联合开发的创新音频编解码器,通过高斯噪声注入和多阶段训练策略,成功解决了音频编码领域的关键挑战:如何同时实现高保真重建和优秀的下游生成能力。研究团队通过理论分析证明,噪声注入在频域上相当于对高频成分施加指数衰减正则化,使模型能更好地保留重要的低频语义信息。实验表明,MagiCodec不仅在重建质量上超越现有技术,在文本转语音、语音识别等下游任务中也表现卓越,其生成的标记分布更接近自然语言的齐普夫分布特性,为音频生成模型提供了更理想的基础。
至顶网 科技行者 2025-06-05 11:04:02