ByteDance和中国科学院的研究团队提出了Diffusion ConvNet (DiCo),一种完全基于卷积神经网络的扩散模型架构,实现了图像生成任务中质量与效率的双重突破。研究发现DiT模型中的全局自注意力机制存在冗余,通过引入紧凑通道注意力机制,解决了卷积模型中的通道冗余问题。在ImageNet基准测试中,DiCo-XL比DiT-XL/2生成速度快2.7-3.1倍,同时实现了更优的图像质量,证明了纯卷积架构在扩散模型中的巨大潜力。
至顶网 科技行者 2025-05-28 07:37:18