标签:推理扩展

DeepSeek前脚发新论文,奥特曼立马跟上:GPT-5就在几个月后啊

DeepSeek与清华大学合作发布了一篇名为《Inference-Time Scaling for Generalist Reward Modeling》的论文,提出了SPCT(Self-Principled Critique Tuning)...

刚刚,DeepSeek公布推理时Scaling新论文,R2要来了?

DeepSeek与清华大学的研究人员提出了一种名为自我原则批评调整(SPCT)的新方法,旨在提升通用奖励模型(GRM)在推理阶段的可扩展性。该方法通过结合拒绝式微...