近年来,视频内容创作与消费显著增长,而协调视听元素对于打造优质内容至关重要。罗切斯特大学的Chao Huang及合作者开发了视觉引导的声音高亮(visually-guided acoustic highlighting)技术,解决了视觉与声音不协调的常见问题。研究团队洞察到电影中的精心制作音频可作为"免费监督信号",创建了THE MUDDY MIX DATASET数据集,并设计了基于Transformer的VisAH模型,在所有评估指标上显著超越基线方法,实现了更加和谐的视听体验。
至顶网 科技行者 2025-05-27 09:40:44