这项由香港大学和Salesforce AI Research联合开展的研究解决了AI助手操作电脑时的关键障碍:GUI定位能力。研究者创建了新的OSWORLD-G基准测试(564个样本)和JEDI数据集(400万示例),通过将复杂界面交互分解为基础组件重新训练模型。实验证明这种方法大幅提升了AI在精确操作计算机方面的能力,使OSWorld基准测试成功率从5%提高到27%,为构建更自然的人机交互系统奠定了基础。
清华大学研究团队在IEEE Transactions on Affective Computing发表突破性研究,提出双重学习策略让AI准确识别人类面部情感。新方法结合判别性和生成性学习,在多个标准数据集上准确率显著提升3-4个百分点,特别在处理陌生人脸时表现出色。技术有望应用于智能教育、医疗健康、人机交互等领域,但仍需解决文化差异和隐私保护等挑战。