这项由上海人工智能实验室等机构联合发布的研究提出了VeBrain框架,成功解决了多模态大语言模型在现实世界应用中的关键挑战。VeBrain通过将机器人控制重新定义为2D视觉空间中的文本任务,统一了多模态理解、视觉空间推理和物理控制三大能力。研究团队还创建了包含60万条高质量指令数据的VeBrain-600k数据集,并设计了创新的机器人适配器将模型决策转化为实际运动。实验结果表明,VeBrain在13个多模态基准和5个空间智能基准上表现优异,并在实际机器人应用中展示出强大的适应性和组合能力。
至顶网 科技行者 2025-06-06 17:29:14