清华大学和盛树实验室的研究团队开发了ShapeLLM-Omni,这是一个突破性的大语言模型,能够同时理解和生成文本、图像及3D内容。该模型通过3D向量量化变分自编码器将复杂的3D网格压缩为离散标记,使大语言模型能够高效处理3D数据。研究团队构建了包含34.6亿标记的3D-Alpaca数据集,涵盖了3D生成、理解和编辑任务。基于Qwen-2.5-vl模型,ShapeLLM-Omni不仅能从文本或图像创建高质量3D模型,还支持通过自然语言编辑3D资产,为游戏开发、虚拟现实和数字孪生等领域开辟了新可能。
至顶网 科技行者 2025-06-05 13:32:42