这篇研究论文提出了一种称为"正交残差更新"的新方法,解决了深度神经网络中标准残差连接的局限性。研究人员发现,在传统残差连接中,模块输出与输入流直接相加可能导致冗余特征学习。他们的创新方法将模块输出分解为平行和正交两个组件,仅保留正交部分进行更新,促使网络学习更丰富的特征表示。在ResNetV2和Vision Transformer等架构上的实验证明,这种简单修改显著提高了模型准确率和训练稳定性,在ImageNet-1k数据集上使ViT-B模型的表现提升了4.3个百分点。
至顶网 科技行者 2025-05-28 20:28:17