清华翟季冬:DeepSeek 百倍算力效能背后的系统革命 | 智者访谈
![清华翟季冬:DeepSeek 百倍算力效能背后的系统革命 | 智者访谈](https://www.xuexiaigc.com/wp-content/uploads/article-images/1c6f1ea67ef69507dc.jpeg)
文章摘要
【关 键 词】 AI模型、算力资源、系统软件、技术创新、国产算力
2025年初,中国团队DeepSeek在全球AI领域引起广泛关注,他们仅用2048张H800 GPU在两个月内训练出一个与全球顶尖水平相媲美的AI模型,这一成就不仅挑战了英伟达的万亿市值,也促使行业反思对算力规模的过度依赖。清华大学计算机系长聘教授翟季冬在《智者访谈》中提出,DeepSeek的成功在于系统软件层面的深度创新,实现了百倍性价比提升。他强调,性能优化是一个持续的过程,尤其在中国面临算力资源挑战的背景下,通过系统软件创新提升算力效能是产业突围的关键。
翟季冬教授指出,AI算力需求不断增长,但国内智算中心的国产算力资源存在闲置,供需错配暴露出基础软件体系的短板。他提出,打通应用、系统软件和自主芯片的完整链路,探索符合中国现实的发展路径,是技术创新和战略抉择的双重任务。在算力主导AI竞争力的时代,如何让每一份计算资源释放最大价值,是一个至关重要的问题。
DeepSeek的创新不仅体现在算法层次,采用了新的MoE架构和负载均衡算法设计,还在系统软件层次进行了精细化的工程优化,如并行策略、混合精度计算和低精度通信策略等,有效降低了模型训练成本。翟季冬教授认为,这些创新为中国发展未来人工智能提供了重要启示。
访谈中还讨论了算力效能评估的新视角,中美硬件差异下的软件思考,以及为何尚未出现Transformer专用芯片等问题。翟季冬教授提出,系统软件的优化应与算法发展解耦,适用于不同算力场景。他还强调了成本作为评价算力利用效率的重要指标,以及在大模型训练中追求整体均衡的重要性。
面对NVIDIA建立的软件生态壁垒,翟季冬教授认为中国应学习其先进理念,同时发展自己的创新,以适应不同的架构特点。他还提到,系统软件应关注应用层面的变化和底层架构的演进,通过合理设计将两端匹配起来,让硬件效率发挥到极致。
在万卡集群训练的挑战方面,翟季冬教授分享了并行策略选择、通信问题、容错机制和单卡性能等方面的经验。他提出,大模型的生命周期包含多个阶段,每个阶段对算力的需求都不相同,需要针对这些特点进行深入优化。
最后,翟季冬教授预测,未来1-3年内,系统软件优化方面可能会看到显著趋势或变化,包括国产算力的易用性提升和系统软件的完整建设,如编程语言、编译器、通信库、并行计算和编程框架等方向的投入。他强调,要充分发挥国产算力的性能,需要在这些方向全面发力。
原文和模型
【原文链接】 阅读原文 [ 6803字 | 28分钟 ]
【原文作者】 机器之心
【摘要模型】 moonshot-v1-32k
【摘要评分】 ★★★★★