标签:数据效率
如何优化测试时计算?解决「元强化学习」问题
当前改进大型语言模型的主流方法依赖于增加高质量数据的监督微调或强化学习,但数据扩展面临瓶颈。研究预测,用于训练的高质量文本可能在2028年耗尽,而复杂...
LeCun八年前神预言,大模型路线再颠覆?OpenAI宣告:强化学习取得稳定性突破
新智元报道指出,强化微调(RLF)技术可能在强化学习领域引发一场变革。Yann LeCun曾将智能比作蛋糕,其中无监督学习是主体,有监督学习是糖霜,而强化学习则...
北大字节开辟图像生成新范式!超越Sora核心组件DiT,不再预测下一个token
这篇文章介绍了北大和字节跳动合作开发的新方法——Visual Autoregressive Modeling(VAR),旨在改进图像生成的质量和效率。VAR采用了预测下一级分辨率的方式...