Meta深夜开源Llama 4!首次采用MoE,惊人千万token上下文,竞技场超越DeepSeek

Meta深夜开源Llama 4!首次采用MoE,惊人千万token上下文,竞技场超越DeepSeek

 

文章摘要


【关 键 词】 AI模型多模态开源训练

Meta在周末发布了其最新AI模型系列Llama 4,包括Llama 4 Scout、Llama 4 Maverick和Llama 4 Behemoth。这些模型经过大量未标注的文本、图像和视频数据训练,具备广泛的视觉理解能力。Meta GenAI负责人Ahmad Al-Dahle强调,Llama 4展示了Meta对开源AI社区的长期承诺,坚信开放系统将产出最好的模型。Llama 4 Maverick在大模型竞技场中排名第二,成为第四个突破1400分的大模型,尤其在困难提示词、编程、数学和创意写作任务中表现优异。

Llama 4 Scout拥有170亿激活参数和16个专家,是全球最佳的多模态模型,适配单个NVIDIA H100 GPU,并提供了业界领先的10M上下文窗口。Llama 4 Maverick拥有128位专家和170亿激活参数,在基准测试中击败了GPT-4o和Gemini 2.0 Flash,提供了一流的性价比。Llama 4 Behemoth是Meta目前最强大的模型之一,拥有2880亿激活参数和16个专家,在多项STEM基准测试中表现优于GPT-4.5、Claude 3.7 Sonnet和Gemini 2.0 Pro。

Llama 4系列模型采用原生多模态设计,支持长达1000万token的上下文,解锁了记忆、个性化和多模态应用的新用例。模型在图像grounding方面表现一流,能够将用户提示与相关视觉概念对齐,并支持12种语言的文本理解。Meta在预训练阶段首次采用混合专家(MoE)架构,提高了训练和推理效率。Llama 4 Maverick在单个NVIDIA H100 DGX主机上运行,便于部署。

Meta还开发了新的训练技术MetaP,可靠地设置模型超参数,并在200种语言上进行预训练,支持开源微调工作。Llama 4 Behemoth的训练数据混合总量超过30万亿token,是Llama 3的两倍多。Meta通过中期训练提升模型核心能力,为Llama 4 Scout解锁了1000万输入上下文长度。

在后训练阶段,Meta通过轻量级监督微调、在线强化学习和轻量级直接偏好优化改进了Llama 4的性能。Llama 4 Maverick在图像和文本理解方面提供了无与伦比的性能,能够创建跨越语言障碍的复杂人工智能应用。Meta通过持续在线RL策略和轻量级DPO处理模型响应质量,实现了模型智能与对话能力的良好平衡。

Llama 4 Scout和Llama 4 Maverick现已开放下载,用户可在llama.com和Hugging Face上获取最新模型。这些模型在多模态、长上下文和图像基准测试中表现卓越,超越了之前的Llama模型。Llama 4 Behemoth作为教师模型,拥有2880亿激活参数和近2万亿总参数,在数学、多语言和图像基准测试中提供了非推理模型的最先进性能。Meta通过优化混合专家并行化和开发异步在线强化学习训练框架,提升了训练效率。

原文和模型


【原文链接】 阅读原文 [ 3321字 | 14分钟 ]
【原文作者】 机器之心
【摘要模型】 deepseek/deepseek-v3/community
【摘要评分】 ★★★★★

© 版权声明
“绘蛙”

相关文章

“极客训练营”

暂无评论

暂无评论...