这项由北卡罗来纳大学与Snowflake合作的研究提出了Agent World Model(AWM)系统,首次实现了大规模可执行环境的自动生成。该系统能够自动创建1000个多样化的虚拟训练环境,每个环境平均包含35个工具,为AI智能体的工具使用训练提供了前所未有的规模和质量保障,实验证明在虚拟环境中训练的智能体能够很好地泛化到真实任务中。
这项由香港大学和Salesforce AI Research联合开展的研究解决了AI助手操作电脑时的关键障碍:GUI定位能力。研究者创建了新的OSWORLD-G基准测试(564个样本)和JEDI数据集(400万示例),通过将复杂界面交互分解为基础组件重新训练模型。实验证明这种方法大幅提升了AI在精确操作计算机方面的能力,使OSWorld基准测试成功率从5%提高到27%,为构建更自然的人机交互系统奠定了基础。