纽约大学和Aimpoint Digital Labs的研究团队首次揭示了Transformer模型训练中"大规模激活"的完整发展轨迹。这些影响力比普通激活大千倍的"超级激活"遵循可预测的数学规律,研究者开发出五参数公式能以98.4%准确率预测其变化。更重要的是,通过调整模型架构参数如注意力密度、宽深比等,可以在训练前就预测和控制这些关键激活的行为,为设计更高效、量化友好的AI模型提供了全新工具。
Google 最新旗舰语言模型 Gemini 2.5 Pro 发布后被其他 AI 热点掩盖。然而,实际测试表明,它在长文本处理、多模态推理和数据分析等方面表现出色,可能是目前最佳的推理模型。其百万级别的上下文窗口、强大的代码能力和详细的推理过程,为企业级应用打开了新的可能性,有望推动 Google 在生成式 AI 竞赛中领先。