字节跳动团队开发了首个AI研究助手评估系统ReportBench,通过对比AI生成报告与专家综述论文的引用质量,并验证陈述准确性来评估AI助手表现。研究发现OpenAI Deep Research引用准确率38.5%,Gemini为14.5%,两者都存在陈述和引用幻觉问题。该系统为AI研究助手建立了标准化质量检测工具,推动行业发展。
OpenAI CEO Sam Altman 表示,他的公司已掌握构建通用人工智能 (AGI) 的方法。他预测 2025 年可能会出现首批 AI 代理加入工作力量,显著改变企业产出。Altman 认为超级智能工具将加速科学发现和创新,带来丰富繁荣的美好未来。尽管这一说法备受争议,但 OpenAI 已取得的成就使人难以忽视其潜力。