专为DeepSeek类强推理加速，老黄拿出Blackwell Ultra，下代架构性能还要翻倍

AI-Agent2个月前发布 almosthuman2014

710 0 0

专为DeepSeek类强推理加速，老黄拿出Blackwell Ultra，下代架构性能还要翻倍

文章摘要

英伟达在GTC大会上展示了其在人工智能领域的最新进展，重点介绍了Blackwell架构的AI加速卡及其在推理任务中的强大性能。Blackwell架构已经全面投产，并将在2025年下半年推出Blackwell Ultra，而下一代AI加速器架构Vera Rubin则计划于2026年推出。Blackwell架构的性能是前代Hopper架构的40倍，尤其是在推理任务中表现出色。英伟达还提出了“AI工厂”的概念，强调推理将成为未来十年最重要的工作负载之一。

在硬件方面，英伟达展示了Blackwell Ultra NVL72，这是迄今为止AI算力最强大的硬件，配备了1.1 EF的密集FP4推理能力和0.36 EF的FP8训练能力。Blackwell Ultra DGX SuperPOD由288个Grace CPU和576个Blackwell Ultra GPU组成，能够提供11.5 ExaFLOPS的FP4算力，成为英伟达定义的“AI工厂”超级计算机解决方案。此外，英伟达还宣布了下一代架构Vera Rubin，其全机架性能预计是Blackwell Ultra的3.3倍，并将于2026年下半年推出。

在软件方面，英伟达推出了NVIDIA Dynamo，这是一个分布式推理服务库，旨在高效编排和协调大量GPU之间的AI推理请求。Dynamo已被微软、Perplexity等公司采用，并被视为AI工厂的操作系统。英伟达还通过CUDA X软件库为各行各业提供了新的工具，包括用于量子计算的cuQUANTUM和用于深度学习的NCCL等，这些库都依赖CUDA核心来完成工作。

英伟达对未来的AI算力需求持乐观态度，预计数据中心的建设投资将很快达到1万亿美元。黄仁勋指出，AI计算正在经历“通货膨胀”，随着大模型推理任务和AI Agent任务的增加，AI推理的算力需求已经增长了10-100倍。他还展示了新旧两代大模型在解决复杂问题时的性能差异，强调强推理模型DeepSeek R1在计算量和时间上的显著提升。

展望未来，英伟达认为AI的下一波浪潮将延伸到物理世界，主要形式包括工业机器人、自动驾驶车辆和人形机器人。英伟达的预训练模型平台Cosmos、GROOT N1以及NVIDIA Omniverse将帮助构建物理AI生态，推动技术的发展。黄仁勋特别提到，机器人领域很可能成为未来最大的产业，英伟达已经为这一趋势做好了准备。

总的来说，英伟达通过硬件、软件和生态系统的全面布局，展示了其在AI领域的领先地位，并为其未来在物理世界中的扩展奠定了坚实基础。