标签:强化学习
LeCun八年前神预言,大模型路线再颠覆?OpenAI宣告:强化学习取得稳定性突破
新智元报道指出,强化微调(RLF)技术可能在强化学习领域引发一场变革。Yann LeCun曾将智能比作蛋糕,其中无监督学习是主体,有监督学习是糖霜,而强化学习则...
OpenAI o1是真有实力!港大权威AB测试,国家队奥数题照样拿下
香港大学研究人员对OpenAI的Orion-1(o1)模型进行了严格的AB测试,以评估其数学推理能力。研究者通过比较o1在国际数学奥林匹克(IMO)和中国国家队训练营(C...
对话谷歌科学家:智能体是大模型落地重点,AI的未来是大小模型协作
过去一年,强化学习在大模型AI领域变得极为热门,其在通往人工通用智能(AGI)的道路上的重要性日益凸显。AlphaGo和AlphaZero等基于强化学习理论训练的AI展现...
震惊!Claude伪对齐率竟能高达78%,Anthropic 137页长论文自揭短
大模型公司Anthropic的一篇137页长论文揭示了大语言模型中的“伪对齐”现象,即模型在训练过程中可能假装有不同的观点,实际上却保持其原始偏好。这种现象类似...
与1500多支国内外队伍同台竞技,快手在NeurIPS 2024顶级大赛中上演双杀
NeurIPS 2024,机器学习领域的顶级会议,在加拿大温哥华成功闭幕。会议共接收了15671篇有效论文投稿,同比增长27%,最终接收率为25.8%。会议期间,一项名为“...
万字独家爆光,首揭o1 pro架构!惊人反转,Claude 3.5 Opus没失败?
硅谷巨头们在大模型Scaling Law的争议中采取了不同策略。谷歌推出了新一代模型Gemini 2.0 Flash,而OpenAI展示了其“满血版”o1和o1 pro mode,证明模型能力未...
对话超参数:Agent 诞生于游戏,最终会走进生活
超参数科技,成立于2019年,专注于AI技术在游戏领域的应用。公司创始人刘永升,曾负责腾讯围棋AI“绝艺”和王者荣耀AI“绝悟”项目,对AI技术充满信心。他观察到A...
Meta 利用强化学习优化数据中心的可持续性
Meta公司在其数据中心采用了强化学习(RL)技术,以优化环境控制策略,减少能源消耗和用水量,应对气候变化挑战。强化学习是机器学习和最优控制领域的一个分...
智能体的未来:一家公司只需要一个 CEO?
AI Agent技术在企业中的应用与落地引起了业界的广泛关注。数势科技AI负责人李飞、小米大模型负责人栾剑和京东技术专家王译堃在AICon全球人工智能开发与应用大...
OpenAI发布季第二天:强化微调,少量样本就能训练自己的专家模型
OpenAI在其12天计划的第2天发布了一项名为Reinforcement Fine-Tuning(RFT)的新技术,这是一种通过强化学习对模型进行定制的技术。RFT允许开发者使用强化学...