清华、中南开源3D交互实体AI Agent LEGENT

AI-Agent4天前发布 AIGCOPEN
193 0 0
清华、中南开源3D交互实体AI Agent LEGENT

 

文章摘要


【关 键 词】 3D交互AI代理多模态模型虚拟环境开源项目

清华大学与中南大学联合研发的LEGENT模型,通过构建可视化3D交互实体AI代理系统,突破了传统AI Agent无实体交互的局限。该系统由场景、智能体与界面三大核心模块构成,创新性地融合大语言模型与多模态技术,实现了用户与智能体在虚拟空间中的自然互动。

场景模块基于游戏引擎搭建高精度物理仿真环境,完整模拟重力、摩擦力和碰撞动力学特性,为智能体决策提供真实物理信息支持。3D物体不仅具备视觉真实感,还可执行抓取、搬运及动态结构操作,例如开关门、抽屉等复杂交互动作。系统支持导入用户自定义模型与生成式AI创建的对象,通过JSON格式实现场景的快速定制与扩展,为不同业务场景提供灵活适配能力。

智能体模块采用“自我中心视觉”感知系统,通过第一人称视角捕捉环境信息,配合连续动作执行机制,可完成导航、物体操纵等任务。相较于传统离散动作设计,其移动、旋转等操作具有物理连贯性,支持智能体在真实场景中的迁移应用。多模态技术的整合使其能准确解析文本指令,如”将汽车玩具放在书本上”等复杂操作。

交互界面采用游戏化设计理念,用户可通过键盘鼠标直接操控智能体,并配备双模态场景生成系统:程序生成模式支持结构化场景搭建,语言指导生成模式允许通过自然语言描述创建虚拟环境。行为轨迹生成界面可输出包含视觉观测与动作序列的训练数据集,为多模态大模型训练提供高质量资源

该系统在部署层面具有显著优势,普通PC即可流畅运行且支持远程服务器连接,无需专用硬件设备。开源特性与模块化架构降低了技术使用门槛,研究团队已公开项目代码与论文,为AI Agent的具身智能研究提供了重要技术平台。

原文和模型


【原文链接】 阅读原文 [ 997字 | 4分钟 ]
【原文作者】 AIGC开放社区
【摘要模型】 deepseek-r1
【摘要评分】 ★★☆☆☆

© 版权声明
“绘蛙”

相关文章

“极客训练营”

暂无评论

暂无评论...