
文章摘要
【关 键 词】 3D交互、AI代理、多模态模型、虚拟环境、开源项目
清华大学与中南大学联合研发的LEGENT模型,通过构建可视化3D交互实体AI代理系统,突破了传统AI Agent无实体交互的局限。该系统由场景、智能体与界面三大核心模块构成,创新性地融合大语言模型与多模态技术,实现了用户与智能体在虚拟空间中的自然互动。
场景模块基于游戏引擎搭建高精度物理仿真环境,完整模拟重力、摩擦力和碰撞动力学特性,为智能体决策提供真实物理信息支持。3D物体不仅具备视觉真实感,还可执行抓取、搬运及动态结构操作,例如开关门、抽屉等复杂交互动作。系统支持导入用户自定义模型与生成式AI创建的对象,通过JSON格式实现场景的快速定制与扩展,为不同业务场景提供灵活适配能力。
智能体模块采用“自我中心视觉”感知系统,通过第一人称视角捕捉环境信息,配合连续动作执行机制,可完成导航、物体操纵等任务。相较于传统离散动作设计,其移动、旋转等操作具有物理连贯性,支持智能体在真实场景中的迁移应用。多模态技术的整合使其能准确解析文本指令,如”将汽车玩具放在书本上”等复杂操作。
交互界面采用游戏化设计理念,用户可通过键盘鼠标直接操控智能体,并配备双模态场景生成系统:程序生成模式支持结构化场景搭建,语言指导生成模式允许通过自然语言描述创建虚拟环境。行为轨迹生成界面可输出包含视觉观测与动作序列的训练数据集,为多模态大模型训练提供高质量资源。
该系统在部署层面具有显著优势,普通PC即可流畅运行且支持远程服务器连接,无需专用硬件设备。开源特性与模块化架构降低了技术使用门槛,研究团队已公开项目代码与论文,为AI Agent的具身智能研究提供了重要技术平台。
原文和模型
【原文链接】 阅读原文 [ 997字 | 4分钟 ]
【原文作者】 AIGC开放社区
【摘要模型】 deepseek-r1
【摘要评分】 ★★☆☆☆