破解国产芯片FP8及DeepSeek部署难题,清华团队开源“赤兔Chitu”大模型引擎

AIGC动态8小时前发布 AIGCOPEN
42 0 0
破解国产芯片FP8及DeepSeek部署难题,清华团队开源“赤兔Chitu

 

文章摘要


【关 键 词】 大模型开源推理引擎FP8国产芯片

清华大学高性能计算研究所翟季冬教授团队与清程极智联合宣布开源大模型推理引擎“赤兔Chitu”,该引擎首次实现在非英伟达Hopper架构GPU及各类国产芯片上原生运行FP8精度模型,为国产AI芯片的广泛应用和生态建设带来了新的突破。赤兔引擎通过底层技术革新,摆脱对特定硬件的依赖,极大地降低了企业部署AI模型的门槛和成本。

当前全球领先的FP8模型长期依赖英伟达H系列高端GPU,这使得国内企业在部署大模型时受限于AI芯片的限制。一方面,英伟达H系列芯片的进口受限,导致国内企业难以获取高性能硬件支持;另一方面,大多数国产芯片因不支持FP8数据类型,无法充分发挥新一代AI模型的性能,企业部署成本高昂。赤兔引擎的推出,打破了这一困境,首次实现了非H卡设备对原生FP8模型的高效部署。

在性能优化和架构适应性方面,赤兔引擎展现了显著优势。在首期开源版本中,赤兔引擎部署DeepSeek-R1-671B满血版时,在A800集群的测试中,相比部分国外开源框架,GPU使用量减少50%的情况下推理速度仍有3.15倍提速。这意味着企业可以用更少的硬件资源获得更高的推理性能,极大降低了部署门槛和运营成本。同时,赤兔引擎的技术可实现模型效果不受损,这一成果源于团队对GeMM、MoE等核心算子的指令级优化,直接处理FP8数据而非简单量化,确保模型精度无损。

今年以来,随着DeepSeek—R1、QwQ等优秀的国产开源大模型的不断涌现,大模型私有化部署的需求越来越旺盛,但大模型部署和运营成本居高不下,因此显著降低推理成本对推广AI应用至关重要。赤兔引擎从底层设计上便将“算力效率”作为首要优化目标,力求以更低资源消耗实现更高性能输出。本次开源的版本特别聚焦于当前市场最迫切的需求——将DeepSeek-R1 FP8精度模型无损且高效地部署在存量英伟达GPU上。团队表示,针对多款国产芯片特别优化的版本也将陆续开源。

清程极智CEO汤雄超表示:当前国内在推理引擎这一核心环节,仍缺乏生产级开源产品。开源“赤兔”引擎是助力国内AI生态建设的重要一步。为加速生态建设,赤兔团队与多家国产芯片厂商展开合作,开放代码贡献通道,缩短硬件适配周期。随着“赤兔”引擎的开源,“国产大模型+国产引擎+国产芯片”技术闭环正在加速成型,中国大模型产业从技术到生态的全面突破,已按下加速键。

此外,清程极智推出基于赤兔的“推理一体机”,提供开箱即用部署方案及专业运维服务,进一步简化企业AI落地流程。无论用什么卡,赤兔都会是高性价比的选择。这一突破不仅为企业提供了更高效、更灵活的AI部署解决方案,降低了大模型落地门槛,也为国产AI算力的发展带来了新的契机。

原文和模型


【原文链接】 阅读原文 [ 1483字 | 6分钟 ]
【原文作者】 AIGC开放社区
【摘要模型】 deepseek-v3
【摘要评分】 ★★★☆☆

© 版权声明
“绘蛙”

相关文章

“极客训练营”

暂无评论

暂无评论...