Salesforce AI Research联合伊利诺伊大学开发的UserBench研究揭示了当前AI助手的重大缺陷:尽管技术上表现出色,但在理解用户真实需求方面表现糟糕。最先进的AI模型完全满足用户需求的成功率仅20%,发现隐性偏好的能力不足30%。这项研究创建了专门的用户中心评估环境,为开发真正理解用户、能够成为人类理解型伙伴的AI助手指明了方向,标志着AI发展从"任务执行者"向"用户协作者"的重要转变。
这项由香港大学和Salesforce AI Research联合开展的研究解决了AI助手操作电脑时的关键障碍:GUI定位能力。研究者创建了新的OSWORLD-G基准测试(564个样本)和JEDI数据集(400万示例),通过将复杂界面交互分解为基础组件重新训练模型。实验证明这种方法大幅提升了AI在精确操作计算机方面的能力,使OSWorld基准测试成功率从5%提高到27%,为构建更自然的人机交互系统奠定了基础。