黄仁勋被实习生说服用 CUDA，但遭团队嫌弃？！英伟达早期架构师首次曝光：12 人团队如何开启“算力帝国”

84 0 0

文章摘要

在 NVIDIA 的一次内部对话中，三位员工 Nader、Stephen 和 Carter 分享了他们对 CUDA 技术发展及其在计算科学和 AI 领域应用的见解。Stephen 作为 CUDA 架构师之一，回顾了 CUDA 的早期发展，提到团队在初期曾面临图形团队的质疑，尤其是 CUDA 占用 GPU 资源的问题。然而，随着时间的推移，CUDA 逐渐成为推动图形和计算领域创新的关键技术。Stephen 强调，CUDA 的出现彻底改变了开发者与 GPU 的交互方式，尤其是在游戏开发和视觉效果实现方面。

在 CUDA 之前，开发者主要通过 OpenGL 和 DirectX 与 GPU 交互。Stephen 解释了这些技术的局限性，并指出 CUDA 的可编程性设计为开发者提供了更大的灵活性。他提到，CUDA 的发明者 Ian Buck 在英伟达实习期间说服了 CEO 黄仁勋，尽管 CUDA 初期仅占用芯片 10% 的资源，但这一设计最终为图形开发带来了革命性的变化。如今，GPU 的设计已经演变为 90% 可编程、10% 固定功能，与初期的情况完全颠倒。

Carter 从物理学背景出发，分享了 CUDA 如何帮助物理学家突破计算极限，特别是在天气预报和计算生物学等领域。他提到，尽管物理学家最初对 CUDA 的多线程设计持保留态度，但随着计算需求的增长，他们逐渐接受了这一技术。CUDA 的并行化能力使其在处理大规模数据时表现出色，尤其是在 AI 和机器学习领域。

Nader、Stephen 和 Carter 还探讨了英伟达在计算科学和 AI 芯片领域的主导地位。他们提到，英伟达已经不再仅仅是一家硬件公司，而是以软件为核心的企业。英伟达的加速计算组负责人 Dave Salvator 曾公开表示，英伟达的代码工程师人数是其硬件工程师人数的两倍，这进一步印证了公司在软件领域的投入。

Stephen 还详细解释了 CUDA 的技术栈，指出它不仅包括 CUDA C++ 语言，还包含一系列库和编译器，能够充分发挥 GPU 的性能。CUDA 的并行化能力是其核心竞争力，当前的 GPU 能够提供多达 25 万个线程，这在过去是无法想象的。他还提到，CUDA 的设计原则是尽可能贴近硬件，以实现最佳性能。

在谈到 CUDA 的挑战时，Stephen 和 Carter 都提到了程序员需要同时控制数据并行和任务并行两种计算类型。CUDA 的成功在于它能够将复杂的任务拆分为多个独立部分，并通过多线程并行处理，从而大幅提升计算效率。他们还提到，AI 的兴起进一步推动了 CUDA 的应用，特别是在图形渲染和天气预报等领域，AI 算法能够通过近似计算大幅降低计算成本。

最后，Stephen 回顾了 90 年代并行计算的早期发展，指出英伟达在当时就已经预见到了并行化的潜力。通过专用芯片提高性能的设计思路，最终演变为如今的多线程机器，而 CUDA 正是这一演变的产物。他还提到，未来的异构计算将结合 CPU 和 GPU 的优势，英伟达的 Grace Hopper 硬件正是这一趋势的体现。

总体而言，CUDA 技术的演进不仅推动了图形和计算领域的创新，还在 AI 和机器学习中发挥了关键作用。英伟达通过软硬件结合的方式，成功将并行计算能力应用于广泛的科学和工程领域，奠定了其在计算科学和 AI 芯片领域的主导地位。