DeepSeek前脚发新论文，奥特曼立马跟上：GPT-5就在几个月后啊

73 0 0

文章摘要

DeepSeek与清华大学合作发布了一篇名为《Inference-Time Scaling for Generalist Reward Modeling》的论文，提出了SPCT（Self-Principled Critique Tuning）方法，旨在通过在线强化学习优化原则和批判生成，实现推理时扩展。该研究针对现有奖励模型（Reward Model, RM）在通用领域表现受限的问题，提出了生成式奖励模型（GRM），通过生成文本形式的奖励而非单一标量值，支持灵活输入和推理时扩展。SPCT方法包括两阶段过程：拒绝式微调和基于规则的在线RL，通过动态生成高质量的原则和批判，提升奖励质量。此外，推理时扩展技术通过多次采样生成多样化的原则和批判，投票聚合最终奖励，扩展奖励空间，并训练辅助模型过滤低质量采样，进一步提升扩展效果。实验结果表明，DeepSeek-GRM-27B在多个基准上显著优于基线方法，且通过推理时扩展性能进一步提升。这项研究证明了推理时扩展在通用RM中的有效性，性能超越训练时扩展。

与此同时，OpenAI的奥特曼发布了一条“变卦”的消息，表示将在几周后先发布o3和o4-mini，而GPT-5将在几个月后发布，且效果会比最初设想的还要好。奥特曼解释称，顺利整合所有内容比想象的要困难得多，希望确保有足够的能力来支持预期的需求。这一消息引发了广泛关注，尤其是在DeepSeek发布新论文后，OpenAI的动作似乎也在紧跟步伐。此外，奥特曼还透露了两本他亲自参与的书籍即将发布，一本是关于他本人的传记，另一本则是关于OpenAI的书籍。