InfantAgent-Next是一款突破性的多模态通用型AI助手,能通过文本、图像、音频和视频与计算机进行交互。不同于现有方法,它采用高度模块化架构,将基于工具和纯视觉的代理技术融为一体,让不同模型能逐步协作解决分散任务。在OSWorld视觉测试中达到7.27%的准确率,超越Claude-Computer-Use;同时在代码处理基准SWE-Bench和通用任务平台GAIA上也表现出色。其开源设计不仅提供了丰富工具集,还优化了鼠标点击定位和文件编辑功能,为AI自动操作计算机开创了新范式。
至顶网 科技行者 2025-05-29 14:49:59