奖励模型 | 学习AIGC

DeepSeek前脚发新论文，奥特曼立马跟上：GPT-5就在几个月后啊

DeepSeek与清华大学合作发布了一篇名为《Inference-Time Scaling for Generalist Reward Modeling》的论文，提出了SPCT（Self-Principled Critique Tuning）...

AIGC动态

2周前

DeepSeek与清华大学的研究人员提出了一种名为自我原则批评调整（SPCT）的新方法，旨在提升通用奖励模型（GRM）在推理阶段的可扩展性。该方法通过结合拒绝式微...

AIGC动态

2周前

OPPO研究院与香港科技大学（广州）的研究人员提出了一项名为OThink-MR1的新技术，旨在通过动态强化学习提升多模态大模型的泛化推理能力。多模态大模型虽然能...

AIGC动态

3周前

普林斯顿大学的研究团队从优化角度探讨了奖励模型在RLHF（基于人类反馈的强化学习）中的有效性，并揭示了仅依赖准确度评估奖励模型的局限性。研究表明，奖励...

AIGC动态

4周前

多机构联合研究发现，通过优化测试时计算扩展（TTS）策略，小型语言模型在复杂数学任务中展现出超越大型模型的潜力。0.5B参数的模型在MATH-500和AIME24基准测...

AIGC动态

2个月前