Yale大学自然语言处理实验室研发的Table-R1模型突破性地将推理时间缩放技术应用于表格推理任务。研究团队通过两种方法提升模型能力:从DeepSeek-R1模型的推理过程中学习,以及利用可验证奖励进行强化学习。实验表明,即使使用仅有7B参数的模型,Table-R1-Zero也能在13个表格推理基准测试中媲美甚至超越GPT-4.1等大型模型。该研究不仅证明了中小规模模型通过适当训练也能实现出色表现,还为数据分析、科学研究和决策支持系统等实际应用提供了新可能。
至顶网 科技行者 2025-06-03 17:39:47