不用英伟达GPU!华为盘古Ultra来了:昇腾原生、135B稠密通用大模型

文章摘要
华为盘古团队成功开发了基于昇腾算力训练的千亿级通用语言大模型 Pangu Ultra,该模型在多个领域和评测上超越了之前的稠密模型,如 Llama 405B 和 Mistral Large 2,并与更大规模的稀疏模型如 DeepSeek-R1 相媲美。Pangu Ultra 拥有 1350 亿参数,采用 94 层 Transformer 结构,并通过新的稳定性架构和初始化方法,成功实现了在 13.2T 高质量数据上的全流程无 loss 突刺长稳训练。在系统实现层面,团队通过一系列优化策略,在 8192 张昇腾 NPU 构建的大规模集群上将算力利用率提升至 50%。
在模型架构方面,Pangu Ultra 采用了 Depth-scaled sandwich-norm 和 TinyInit 初始化技术,解决了大规模极深模型的训练稳定性问题。Depth-scaled sandwich-norm 通过对每个子层输出的 layer norm 的 gamma 参数进行调控,确保了跨越多层的残差连接不会导致输出范数累积,从而避免了训练不稳定。TinyInit 则根据模型深度和宽度缩放的参数初始化策略,加速了 loss 收敛并提升了下游任务性能。
在分词器优化方面,Pangu Ultra 采用了「领域感知」的分词词表策略,生成了一个包含 153376 词元的分词词表,提升了词汇表在不同领域间的均衡性,确保了模型在处理文本、代码、数学等多样化任务时的精准性和高效性。
在模型训练方面,Pangu Ultra 的预训练过程分为三个阶段:通用能力训练、推理能力增训和退火阶段。通用阶段帮助模型积累知识和语言表达能力,推理阶段强化了模型的推理技能,退火阶段则教会模型如何运用已学到的知识和推理技能。团队通过课程式的数据采样策略,从易到难地完成了训练过程,并结合规则筛选与 AI 评估优化了数据质量。
在系统优化方面,团队通过混合并行策略、细粒度负载均衡调优、高效融合算子、子序列切分以及数据缓存共享等技术手段,在 8192 卡规模的集群中实现了超过 50% 的 MFU。MC2 通算融合和 NPU Fusion Attention 等优化技术显著提升了资源利用率和训练效率。
在模型结果与分析方面,Pangu Ultra 在昇腾近万卡大集群上实现了约 13T 数据的长稳训练,DSSN 和 TinyInit 保障了训练全程没有出现任何 loss 突刺。Pangu Ultra 在大多数 benchmark 上取得了最好的效果,特别是在稠密架构的模型中表现尤为突出。经过后训练之后,Pangu Ultra 在主要的 Reasoning benchmark 上的表现也超越了 DeepSeek R1。
总体而言,Pangu Ultra 的成功开发不仅展示了昇腾算力在大规模语言模型训练中的潜力,也为国内大模型技术的发展提供了新的方向。通过一系列创新技术和优化策略,Pangu Ultra 在训练稳定性、模型性能和系统效率等方面均取得了显著突破。
原文和模型
【原文链接】 阅读原文 [ 3607字 | 15分钟 ]
【原文作者】 机器之心
【摘要模型】 deepseek/deepseek-v3/community
【摘要评分】 ★★★★★