MLE-Dojo是一个创新的交互式环境,专为训练和评估大语言模型(LLM)在机器学习工程领域的能力而设计。由乔治亚理工学院和斯坦福大学研究者共同开发,这个类似健身房的框架基于200多个真实Kaggle竞赛,支持LLM代理通过结构化反馈循环进行迭代实验和改进。不同于传统静态评估,MLE-Dojo提供完整可执行环境,支持监督微调和强化学习,从而更准确地模拟真实工程场景。研究团队对八种前沿LLM的评估显示,虽然当前模型在迭代改进方面取得了进展,但在自主解决复杂问题方面仍有局限。
至顶网 科技行者 2025-07-08 09:39:31