纽约大学阿布扎比分校研究团队提出了一种创新的两阶段训练方法,解决了AI领域的数据稀缺问题。他们首先让AI模型在简单的"骑士与恶棍"逻辑游戏中"热身",学习通用推理技能,然后再用少量特定领域数据进行强化学习。实验表明,这种方法不仅大幅提升了模型在数学、编程和多学科理解任务上的表现,还显著提高了样本效率,使用仅100个样本就能达到传统方法需要数千样本才能实现的效果。更重要的是,"热身"过的模型在适应特定领域后仍能保持跨领域的泛化能力,为资源受限环境下开发强大AI系统提供了实用策略。
至顶网 科技行者 2025-05-26 17:01:41