标签：自我原则

刚刚，DeepSeek公布推理时Scaling新论文，R2要来了？

DeepSeek与清华大学的研究人员提出了一种名为自我原则批评调整（SPCT）的新方法，旨在提升通用奖励模型（GRM）在推理阶段的可扩展性。该方法通过结合拒绝式微...

AIGC动态

2天前