亚马逊发布Nova Premier AI模型的首个全面安全评估报告,针对化学生物武器、网络攻击和AI自主研发三大高风险领域进行了系统性测试。研究采用自动化基准测试和人工评估相结合的方法,并邀请第三方机构独立验证。结果显示Nova Premier虽然在各领域知识水平有所提升,但实际危险操作能力仍在安全阈值内,可安全向公众开放。
Meta FAIR实验室研究团队发现推理型AI模型虽然逻辑能力强,但在事实表达上容易产生幻觉。他们创新性地设计了包含准确性、详细性、相关性三维评价的训练体系,通过在线强化学习让AI模型既会深度思考又能准确表达事实。实验显示新方法将事实准确率提升23个百分点,同时增加23%的信息详细度,为构建更可信赖的AI系统提供了切实可行的解决方案。