AI也要007?Letta、伯克利提出「睡眠时间计算」,推理效率翻倍还不加钱

文章摘要
AI 初创公司 Letta 和 UC 伯克利的研究人员提出了一种名为“睡眠时间计算”的新方法,旨在通过利用大型语言模型(LLM)在空闲时间的“思考”来提高推理效率并降低成本。 这一方法的核心理念是,即使在用户未提出查询的闲置状态下,智能体也应持续运行,利用这些非交互期重组信息并提前完成推理。通过这种方式,智能体可以将“原始上下文”转化为“学习到的上下文”,从而在实际应答时减少即时推理计算的负担。
过去一年中,推理模型的崛起表明,让模型在测试时执行更长时间的推理计算能够显著提高推理质量。 这种策略被称为“测试时扩展”,已被广泛证实是推动基于 LLM 的 AI 系统迈向更高智能层级的有效路径。然而,研究人员认为,当前 AI 系统的潜力可能被严重低估,因为仅在用户触发交互时才启用智能体的推理能力,意味着模型的绝大部分时间未被有效利用。
研究人员提出“睡眠时间计算”这一概念,旨在通过在系统空闲时段启用深层思维,拓展模型的理解能力与推理方式,从而突破仅靠交互时计算资源所能实现的能力上限。 在标准的测试时间计算应用范式中,用户向 LLM 输入提示 p,LLM 应用测试时间计算来回答用户的问题。然而,提供给 LLM 的提示 p 通常可以分解为已存在的上下文 c 和用户查询 q。在 LLM 未及时响应用户时,它通常仍可访问现有的上下文 c,但错过了离线思考 c 的机会,这一过程被称为睡眠时间计算。
在睡眠时间计算中,LLM 可以基于上下文 c 推理可能的问题并重写上下文,最终产生一个更新的重新表示的上下文 c′。 这一过程可以表示为 S(c) → c′,其中 S 可以是任何标准的测试时间扩展技术,用于在睡眠时间预处理上下文。在对上下文进行预处理后,可以在测试时提供新的上下文 c′ 代替 c 来生成对用户查询的最终答案。由于在这种情况下,关于 c 的大部分推理已经提前完成,因此可以使用小得多的测试时间预算 b << B。此外,c′ 可以在关于相同上下文的不同查询 q_i 之间共享,从而有效地摊销在查询之间得出 c′ 所需的计算,节省总体成本。
通过实验,研究人员探究了睡眠时间计算的优势,并回答了四个关键问题。 首先,睡眠时间计算能够改变测试时计算与准确率之间的帕累托边界,超越原有的计算-准确率曲线。其次,扩展睡眠时间计算规模能够进一步优化帕累托边界,在相似的测试时间预算下,性能提升高达 13% 至 18%。第三,在具有共享上下文的查询之间分摊睡眠时间计算能够显著降低每个查询的平均成本,当每个上下文有 10 个查询时,成本降低多达 2.5 倍。最后,睡眠时间计算在问题能够通过上下文预测的场景中表现最为显著,随着问题从上下文中变得更加可预测,睡眠时间计算和标准测试时间计算之间的准确度差距不断扩大。
这些发现表明,睡眠时间计算为具备状态性的 AI 系统提供了一种全新的扩展路径,能够显著提升模型的理解能力与推理效率,同时降低总体成本。 这一方法的应用前景广阔,特别是在需要处理复杂上下文和多查询的场景中,能够带来显著的性能提升和成本节约。
原文和模型
【原文链接】 阅读原文 [ 2265字 | 10分钟 ]
【原文作者】 机器之心
【摘要模型】 deepseek-v3
【摘要评分】 ★★★★★