卡内基梅隆大学等机构研究团队推出HARDTESTS,解决AI编程测试的可靠性危机。研究显示现有测试集有高达60%的通过测试程序实际存在错误,而80%的编程问题无法获取人类编写的官方测试用例。团队开发的HARDTESTGEN管道通过三种方式生成测试:直接生成的小规模输入、随机常规输入和专门设计发现隐藏错误的"黑客输入"。实验证明,与现有方法相比,HARDTESTS在评估AI代码时准确率提升11.3个百分点,召回率提升17.5个百分点,对困难问题的准确率提升可达40个百分点。
至顶网 科技行者 2025-06-04 16:06:19