DeepSeek前脚发新论文,奥特曼立马跟上:GPT-5就在几个月后啊

AIGC动态17小时前发布 QbitAI
73 0 0
DeepSeek前脚发新论文,奥特曼立马跟上:GPT-5就在几个月后啊

 

文章摘要


【关 键 词】 DeepSeek推理扩展奖励模型强化学习GPT-5

DeepSeek与清华大学合作发布了一篇名为《Inference-Time Scaling for Generalist Reward Modeling》的论文,提出了SPCT(Self-Principled Critique Tuning)方法,旨在通过在线强化学习优化原则和批判生成,实现推理时扩展。该研究针对现有奖励模型(Reward Model, RM)在通用领域表现受限的问题,提出了生成式奖励模型(GRM),通过生成文本形式的奖励而非单一标量值,支持灵活输入和推理时扩展。SPCT方法包括两阶段过程:拒绝式微调和基于规则的在线RL,通过动态生成高质量的原则和批判,提升奖励质量。此外,推理时扩展技术通过多次采样生成多样化的原则和批判,投票聚合最终奖励,扩展奖励空间,并训练辅助模型过滤低质量采样,进一步提升扩展效果。实验结果表明,DeepSeek-GRM-27B在多个基准上显著优于基线方法,且通过推理时扩展性能进一步提升。这项研究证明了推理时扩展在通用RM中的有效性,性能超越训练时扩展。

与此同时,OpenAI的奥特曼发布了一条“变卦”的消息,表示将在几周后先发布o3和o4-mini,而GPT-5将在几个月后发布,且效果会比最初设想的还要好。奥特曼解释称,顺利整合所有内容比想象的要困难得多,希望确保有足够的能力来支持预期的需求。这一消息引发了广泛关注,尤其是在DeepSeek发布新论文后,OpenAI的动作似乎也在紧跟步伐。此外,奥特曼还透露了两本他亲自参与的书籍即将发布,一本是关于他本人的传记,另一本则是关于OpenAI的书籍。

原文和模型


【原文链接】 阅读原文 [ 975字 | 4分钟 ]
【原文作者】 量子位
【摘要模型】 deepseek-v3
【摘要评分】 ★☆☆☆☆

© 版权声明
“绘蛙”

相关文章

“极客训练营”

暂无评论

暂无评论...