清华、中南开源3D交互实体AI Agent LEGENT

569 0 0

文章摘要

清华大学与中南大学联合研发的LEGENT模型，通过构建可视化3D交互实体AI代理系统，突破了传统AI Agent无实体交互的局限。该系统由场景、智能体与界面三大核心模块构成，创新性地融合大语言模型与多模态技术，实现了用户与智能体在虚拟空间中的自然互动。

场景模块基于游戏引擎搭建高精度物理仿真环境，完整模拟重力、摩擦力和碰撞动力学特性，为智能体决策提供真实物理信息支持。3D物体不仅具备视觉真实感，还可执行抓取、搬运及动态结构操作，例如开关门、抽屉等复杂交互动作。系统支持导入用户自定义模型与生成式AI创建的对象，通过JSON格式实现场景的快速定制与扩展，为不同业务场景提供灵活适配能力。

智能体模块采用“自我中心视觉”感知系统，通过第一人称视角捕捉环境信息，配合连续动作执行机制，可完成导航、物体操纵等任务。相较于传统离散动作设计，其移动、旋转等操作具有物理连贯性，支持智能体在真实场景中的迁移应用。多模态技术的整合使其能准确解析文本指令，如”将汽车玩具放在书本上”等复杂操作。

交互界面采用游戏化设计理念，用户可通过键盘鼠标直接操控智能体，并配备双模态场景生成系统：程序生成模式支持结构化场景搭建，语言指导生成模式允许通过自然语言描述创建虚拟环境。行为轨迹生成界面可输出包含视觉观测与动作序列的训练数据集，为多模态大模型训练提供高质量资源。

该系统在部署层面具有显著优势，普通PC即可流畅运行且支持远程服务器连接，无需专用硬件设备。开源特性与模块化架构降低了技术使用门槛，研究团队已公开项目代码与论文，为AI Agent的具身智能研究提供了重要技术平台。