SPOT是一项开创性研究,揭示了大型语言模型在科学论文错误检测方面的严重不足。研究团队创建了包含83篇跨10个学科领域的论文基准,每篇均包含导致勘误或撤回的已验证错误。最先进的AI模型在此任务上表现惊人地差,最佳模型o3的召回率仅为21.1%,精确率仅为6.1%。案例研究显示,这些模型在长尾知识和复杂推理方面存在根本性缺陷,犯下类似学生的基础错误。这一发现对依赖AI辅助科研的趋势敲响了警钟,强调了当前AI能力与可靠科学验证要求之间的巨大差距。
至顶网 科技行者 2025-05-22 08:18:13