英伟达推出AI芯片Blackwell GPU，成本和能耗降低25倍

在人工智能的热潮下，H100 等明星 AI 芯片使的市值一度增至数万亿美元，甚至有望超过谷歌母公司 Alphabet 和亚马逊。

3 月 18 日，在 2024 年 GPU 技术大会上，英伟达创始人兼 CEO 揭开了 Blackwell GPU（图像处理单元，Graphics Processing Unit）的面纱。

他表示：“三十年来，我们一直在追求计算加速，就是为了实现深度学习和人工智能等革命性突破。生成式 AI 是该时代的决定性技术，而 Blackwell GPU 将是推动这场新工业革命的引擎。”

随着 AI 模型的规模及参数量以指数速度持续增长，AI 计算所需的计算性能和带宽需求也不断提高。

Blackwell GPU 架构正是为满足未来 AI 的工作负载而打造，它为全球各机构在万亿级大语言模型（Large Language Model，LLM）上构建和运行实时生成式 AI 提供了可能。并且，其成本和能耗比上一代的 Hopper GPU 架构降低 25 倍。

GPU 最初的核心应用在游戏图形处理，在 AI 中则是重要的运算处理引擎。

需要了解的是，将新架构命名为 Blackwell，主要为了纪念第一位入选美国国家科学院的黑人学者、数学家戴维·哈罗德·布莱克维尔（David Harold Blackwell）。

图丨Blackwell B200 GPU（来源:）

对媒体表示：“此前，训练一个 1.8 万亿参数的模型需要 8000 个 Hopper GPU，并消耗 15 兆瓦的功率。而同样的工作只需要 2000 个 Blackwell GPU 就可以完成，而且功耗仅为 4 兆瓦。”

此外，在一项训练 1.8 万亿参数的 GPT-MoE-1.8T 模型的测试中，根据官网，基于 Blackwell 架构的 GB200 芯片训练速度为 H100 的 4 倍。

除了在生成式 AI 领域，新架构或将推动包括数据处理、工程模拟、电子设计自动化、计算机辅助药物设计和量子计算等领域的突破进展。

而它出色的表现，与引入的多项开创性技术密不可分。

首先，Blackwell 宣称是目前“全球最强大的芯片”。该架构 GPU 具有 2080 亿个晶体管，制造工艺为专门定制的双倍光刻极限尺寸的台积电 4NP 工艺。其中，将 GPU 裸片连接成统一的 GPU 通过 10TB/s 的片间互联完成。

其次，新架构采用了第二代 Transformer 引擎。新一代引擎配备了新的微张量缩放支持以及集成于 TensorRT-LLM 和 NeMo Megatron 框架的动态范围管理算法，可在新型 4 位浮点 AI 推理能力下，实现算力和模型大小的翻倍。

此外，它还采用了第五代 NVLink 网络技术。全新的 NVLink 能够为万亿级参数模型以及混合专家 AI 模型，带来明显的性能提升。它不仅向每个 GPU 提供高达 1.8TB/s 双向吞吐量，还可以保证 576 个 GPU 之间的无缝高速通信。

并且，它还有一个 RAS 引擎。根据公开资料，“Blackwell 驱动的 GPU 将专用引擎和以 AI 为基础的预防性维护功能集成，以此确保可靠性、可用性和可维护性，从而最大限度地延长系统正常运行时间并最大限度地降低运营成本”。

这样，Blackwell GPU 基于此可实现运行诊断并预测可靠性相关的问题，还能提高大规模 AI 部署的弹性，使它能够连续不间断运行数周乃至数月，同时降低运营成本。

新架构还可在不影响性能的条件下，保护 AI 模型和客户数据从而保护隐私，提供更安全的 AI。此外，其配备的专用解压缩引擎可支持最新格式，从而通过加速数据库查询提供强大的数据分析和数据科学性能。

图丨GB200 GPU（来源: ）

当日，还发布了基于全新架构的超大规模 NVIDIA GB200 Grace Blackwell 超级芯片。利用 900GB/s 超低功耗的片间互联，把 NVIDIA B200 Tensor Core GPU 与 NVIDIA Grace CPU 相连。

以 GB200 超级芯片为重要组件的多节点液冷机架级扩展系统 GB200 NVL72，具有 1.4 exaflops 的 AI 性能和 30TB 的快速内存，可为高度计算密集型的工作负载提供强劲性能。

图丨GB200 NVL72（来源：）

例如，与相同数量的 H100 Tensor Core GPU 相比，它能够为 LLM 推理工作负载提供 30 倍的性能，同时还能将成本和能耗降低 25 倍。

许多企业都计划采用 Blackwell，其中包括、、、、、OpenAI、、特斯拉和 xAI。

公司 CEO 山姆·奥特曼（）对媒体说：“Blackwell 实现了巨大的性能飞跃，并将加速我们提供尖端模型的能力。我们很高兴能继续与合作，共同提升 AI 计算。”

特斯拉、公司 CEO 马斯克对媒体表示：“当下的 AI 领域，的硬件无可比拟。”

思科、戴尔科技、惠普、联想和 Supermicro、华硕、富士康等公司预计，将提供基于 Blackwell 产品的各种服务器。

此外，多家软件制造商网络，如工程仿真领域的 Ansys、Cadence 和 Synopsys，也将采用基于 Blackwell 的处理器来提升软件性能。

可预见的是，专为生成式 AI 打造的下一代 AI 架构 Blackwell GPU，或将进一步扩大该公司在领域内的领先地位。

参考资料：

https://venturebeat.com/ai/nvidia-unveils-next-gen-blackwell-gpus-with-25x-lower-costs-and-energy-consumption/

https://nvidianews.nvidia.com/news/nvidia-blackwell-platform-arrives-to-power-a-new-era-of-computingv

运营/排版：何晨龙

01/

02/

03/

04/

05/