强化学习之于 AI Agent，是灵魂、还是包袱？

158 0 0

文章摘要

【关键词】 AI、Agent、RL、决策、智能

自主决策能力被视为AI时代“新基建”的核心，而Workflow技术似乎无法实现真正的通用Agent。AlphaGo的问世标志着AI首次展示出非模板化、非规则驱动的智能行为，开启了Agent时代。Devin作为通用Agent的雏形，首次将AI的编码能力、任务执行与反馈机制整合成闭环，为后续产品提供了范例。Manus在此基础上提出“More Intelligence”理念，试图通过任务拆解、自我反思等方式提升Agent的理解力和适应能力，而Genspark则采用模块化设计，使开发者能够快速搭建Agent系统。

构建Agent的两大共识是：拥有基础模型是起点，强化学习（RL）是赋予Agent连贯行为和目标感的“灵魂”。RL决定了Agent如何理解环境反馈、进行长期规划，并连接感知与行动。然而，Manus因缺乏底层模型和算法能力，其系统结构相对开放，容易被模仿，甚至被视为“套壳”。尽管如此，Manus在产品设计和任务编排上仍有创新之处。业内逐渐形成共识：Agent不能仅靠Workflow搭建，深耕RL的团队在新一轮技术演进中走在前沿。

Pokee AI创始人朱哲清认为，RL的核心优势在于目标驱动，使Agent能够围绕清晰目标进行策略规划和任务执行。真正的Agent核心在于其执行能力与影响力，只有与环境发生深度交互并产生不可逆影响，才能称之为真正的Agent。他认为，带有Workflow的产品是Agent发展的初期形态，真正的Agent应能根据目标自主选择和使用工具完成任务。Agent的发展可分为多个阶段，从早期模拟决策行为的系统到逐步向系统化过渡，最终实现从工具到智能体的转变。

然而，RL算法面临诸多挑战，如线下训练与真实世界的差异、操作动作空间过大导致的泛化困难等。尽管如此，朱哲清坚信RL是迈向“Superhuman Intelligence”的关键引擎。香港科技大学博士生张佳钇则对RL持保留态度，认为现有RL技术本质上是“任务特化”而非智能泛化。在实现跨环境数据的有效统一表征之前，RL面临的跨环境学习困境难以突破。他并不完全认同“没有RL就没有Agent”的观点，认为OpenAI的成功更多依赖于其强大的基础模型而非RL本身。

张佳钇将Agent的发展分为六个阶段，从底层节点到具备自主协作能力的Foundation Agents网络。当前大多数Agent产品仍停留在第二到第三阶段，尚未迈过第四阶段的门槛。最大的瓶颈在于当前Agent仍严重依赖人类预设的workflow节点，缺乏真正的自主性。Follou创始人谢扬则认为，Agent和工作流自动化可以组合起来，Agent的价值在于高效协助人类完成任务，而非模拟人类。他更关心Agent是否能在现实中把一件事做完，而不是停留在看起来很聪明的幻觉里。

在RL信徒与质疑者的观点交锋中，Agent的演化已不再是单一范式的胜利，而是多种技术路线的协同博弈。构建Agent不是拼哪一种技术最炫，而是拼能不能把每一块基础能力连接成一个真正可运行的系统。模型能力、目标规划和执行机制三者缺一不可。如何将这些能力组合在一起，真正打造成一个可泛化、可迁移甚至是可迭代的系统，是Agent走向通用市场的重要一步。

Agent的概念最早在人工智能领域非常宽泛，只要具备感知和决策能力即可被称为Agent。随着Copilot类产品的兴起，是否需要人介入决策成为划定Agent边界的关键标准。如果系统能在无人参与的前提下独立完成决策和执行，就属于真正意义上的Agent。通用Agent的衡量标准不再是语言生成能力或执行速度，而是任务解决的成功率。无论是串行还是并行架构，系统的稳定性、容错机制和跨模块协同能力都至关重要。

通用Agent一旦落地，将显著降低边际成本，并成为继PC操作系统和手机系统之后的新一代人机交互入口。AI操作系统与模型原生芯片的结合，可能催生出下一代Wintel模式，推动智能交互方式的范式跃迁。