PointArena是由华盛顿大学和艾伦人工智能研究所联合推出的多模态指向能力评测平台,分为三个互补组件:Point-Bench(包含982个指向任务的静态数据集)、Point-Battle(收集4,500多人类偏好投票的在线竞技场)和Point-Act(真实机器人操作系统)。研究发现Molmo-72B在指向任务上表现最佳,专门针对指向训练的模型明显优于未经训练模型,而语言推理(如思维链)反而降低指向准确性。三种评测方法间存在高度相关性,表明精确指向能力对桥接抽象推理与实际行动至关重要。
至顶网 科技行者 2025-05-20 17:44:38