
文章摘要
字节跳动与清华大学AIR联合实验室SIA Lab近期推出了一种名为DAPO的强化学习(RL)算法,该算法在AIME 2024基准测试中表现优异,超越了DeepSeek的GRPO算法。DAPO算法由禹棋赢主导开发,他是清华AIR的博士生,同时也是字节跳动“Top Seed人才计划”的实习生。DAPO算法的成功在于其仅通过RL训练,未引入蒸馏等其他技术,便在AIME 2024基准上取得了50分的高分,且训练步数减少了50%。这一成果不仅展示了DAPO算法的潜力,也凸显了禹棋赢在RL领域的卓越能力。
禹棋赢的职业生涯充满了亮点。他在哈尔滨工业大学本科期间从材料专业转向计算机科学与技术,并在大二时加入博导车万翔的科研团队。本科毕业后,他直博进入清华AIR,并在智源研究院实习期间参与了Emu、EVA-CLIP等项目的核心工作。去年,他通过字节跳动的“Top Seed人才计划”加入公司,并迅速在大模型推理领域取得突破。禹棋赢的RL研究不仅提升了模型的数学能力,还涌现出复杂的推理能力,这一发现被团队视为“aha moment”。
禹棋赢的研究方向主要集中在RL的scaling规律上,他坚信RL技术将推动AGI的发展。他的工作不仅得到了字节跳动内部的支持,也引起了业界的广泛关注。禹棋赢的故事反映了AI大模型时代对“解决前沿问题能力”的极致追求,经验不再是唯一筹码,好奇心与执行力才是通行证。字节跳动对禹棋赢的重用,体现了顶尖大模型团队对年轻人才的重视和培养。
禹棋赢的成功也折射出AI产业人才坐标系的重塑。无论是OpenAI、DeepSeek还是字节跳动,都在重用年轻人,赋予他们探索前沿问题的机会。当AGI探索进入无人区,谁离前沿和新的边界更近,谁就能引领和定义规则,绝不论资历和出身。禹棋赢的经历不仅是个人的成功,更是AI大模型时代人才选拔和培养模式的缩影。
最后,字节跳动宣布将继续推进“Top Seed人才计划”,由原谷歌DeepMind副总裁吴永辉亲自带队,进一步推动AI基础研究的前沿探索。这一举措无疑将为更多像禹棋赢这样的年轻人才提供展示才华的舞台,推动AI技术的持续创新和突破。
原文和模型
【原文链接】 阅读原文 [ 3063字 | 13分钟 ]
【原文作者】 量子位
【摘要模型】 deepseek/deepseek-v3/community
【摘要评分】 ★★★★★