Llama 4 刷榜作弊引热议,20 万显卡集群就做出了个这?

文章摘要
Meta近日发布了Llama 4系列模型,包括Llama 4 Scout、Llama 4 Maverick和Llama 4 Behemoth,宣称这些模型经过大量未标注的文本、图像和视频数据训练,视觉理解能力达到新高度。Meta GenAI负责人Ahmad Al-Dahle强调,开放系统将产出最好的小型、中型和前沿大模型,并展示了Llama 4的性能对比测试图。Llama 4 Maverick在大模型竞技场中排名跃升至第二,成为第四个突破1400分的大模型,并在开放模型排行榜上超越了DeepSeek。
然而,网友的实际测试结果却与官方数据大相径庭。在几何程序测试中,Llama 4多次失败,而DeepSeek R1和Gemini 2.5 pro则一次成功。网友对Llama 4的表现感到失望,认为其性能不如现有大模型,甚至有人将其与Qwen QwQ 32B和Grok2等模型相提并论。进一步测试显示,Llama 4在代码测试、长文章写作和翻译任务中表现不佳,甚至不如Gemma 3的27B模型。
网友怀疑Meta通过刷榜提升Llama 4的排名,并发现Ahmad Al-Dahle发布的性能对比测试图底部小字注明“Llama 4 Maverick针对对话进行了优化”,暗示官方数据可能不准确。此外,Meta内部员工爆料称Llama 4的训练存在严重问题,内部模型表现未达开源SOTA,高分是领导层为交差所做的“努力”。前Meta员工指出公司产品研发存在漏洞,信息泄露问题从Llama 1就已存在。
Meta AI研究副总裁Joelle Pineau在Llama 4发布前几天宣布离职,引发外界将其与刷榜事件联系。坊间观点认为,Meta内部研究人员压力过大,倾向于求稳,忽视基础设施迭代和新算法实验,导致创新能力不足。相比之下,DeepSeek团队不断探索新架构,提出GRPO、MLA和NSA等创新技术,推动了大模型领域的发展。
专业人士指出,Llama 4缺乏技术创新,后训练阶段仍使用DPO,而DPO的泛化能力不如PPO和GRPO。Meta坚持使用DPO而不选择创新,导致Llama 4表现不佳。此外,Llama 4系列模型无法放入家用电脑,10M上下窗口的宣传优势对大多数人并非必需。GPT 4o、Gemini 2.5 Pro等多模态模型的推出,进一步削弱了Llama 4的市场竞争力。
Llama 4的翻车事件暴露了Meta在追赶大模型潮流中的急功近利,选择作弊刷榜导致失去社区支持和竞争优势。随着Llama 2和Llama 3时代的过去,选择Llama作为基座的开源模型将越来越少。Meta应专注于创新和提高社区适用度,而非通过作弊博眼球,以赢回口碑。
原文和模型
【原文链接】 阅读原文 [ 1975字 | 8分钟 ]
【原文作者】 AI科技评论
【摘要模型】 deepseek-v3
【摘要评分】 ★★★★☆