专为DeepSeek类强推理加速,老黄拿出Blackwell Ultra,下代架构性能还要翻倍

文章摘要
英伟达在GTC大会上展示了其在人工智能领域的最新进展,重点介绍了Blackwell架构的AI加速卡及其在推理任务中的强大性能。Blackwell架构已经全面投产,并将在2025年下半年推出Blackwell Ultra,而下一代AI加速器架构Vera Rubin则计划于2026年推出。Blackwell架构的性能是前代Hopper架构的40倍,尤其是在推理任务中表现出色。英伟达还提出了“AI工厂”的概念,强调推理将成为未来十年最重要的工作负载之一。
在硬件方面,英伟达展示了Blackwell Ultra NVL72,这是迄今为止AI算力最强大的硬件,配备了1.1 EF的密集FP4推理能力和0.36 EF的FP8训练能力。Blackwell Ultra DGX SuperPOD由288个Grace CPU和576个Blackwell Ultra GPU组成,能够提供11.5 ExaFLOPS的FP4算力,成为英伟达定义的“AI工厂”超级计算机解决方案。此外,英伟达还宣布了下一代架构Vera Rubin,其全机架性能预计是Blackwell Ultra的3.3倍,并将于2026年下半年推出。
在软件方面,英伟达推出了NVIDIA Dynamo,这是一个分布式推理服务库,旨在高效编排和协调大量GPU之间的AI推理请求。Dynamo已被微软、Perplexity等公司采用,并被视为AI工厂的操作系统。英伟达还通过CUDA X软件库为各行各业提供了新的工具,包括用于量子计算的cuQUANTUM和用于深度学习的NCCL等,这些库都依赖CUDA核心来完成工作。
英伟达对未来的AI算力需求持乐观态度,预计数据中心的建设投资将很快达到1万亿美元。黄仁勋指出,AI计算正在经历“通货膨胀”,随着大模型推理任务和AI Agent任务的增加,AI推理的算力需求已经增长了10-100倍。他还展示了新旧两代大模型在解决复杂问题时的性能差异,强调强推理模型DeepSeek R1在计算量和时间上的显著提升。
展望未来,英伟达认为AI的下一波浪潮将延伸到物理世界,主要形式包括工业机器人、自动驾驶车辆和人形机器人。英伟达的预训练模型平台Cosmos、GROOT N1以及NVIDIA Omniverse将帮助构建物理AI生态,推动技术的发展。黄仁勋特别提到,机器人领域很可能成为未来最大的产业,英伟达已经为这一趋势做好了准备。
总的来说,英伟达通过硬件、软件和生态系统的全面布局,展示了其在AI领域的领先地位,并为其未来在物理世界中的扩展奠定了坚实基础。
原文和模型
【原文链接】 阅读原文 [ 3334字 | 14分钟 ]
【原文作者】 机器之心
【摘要模型】 deepseek/deepseek-v3/community
【摘要评分】 ★★★★★