SonarSource研究发现,尽管最新大语言模型在编程基准测试中表现更佳,但同时引入了更多严重漏洞和安全风险。研究测试了Claude、GPT-4o、Llama等模型的4400多个Java编程任务,发现所有模型都存在系统性安全意识缺陷。其中Llama 3.2 90B有超过70%的漏洞被评为最高危险等级,Claude Sonnet 4虽功能测试得分最高,但严重漏洞比例比前代增加93%。研究建议对AI生成代码采用"信任但验证"方法。
至顶网 SiliconANGLE 2025-08-14 08:28:32