在人工智能的热潮下,H100 等明星 AI 芯片使的市值一度增至数万亿美元,甚至有望超过谷歌母公司 Alphabet 和亚马逊。
3 月 18 日,在 2024 年 GPU 技术大会上,英伟达创始人兼 CEO 揭开了 Blackwell GPU(图像处理单元,Graphics Processing Unit)的面纱。
他表示:“三十年来,我们一直在追求计算加速,就是为了实现深度学习和人工智能等革命性突破。生成式 AI 是该时代的决定性技术,而 Blackwell GPU 将是推动这场新工业革命的引擎。”
随着 AI 模型的规模及参数量以指数速度持续增长,AI 计算所需的计算性能和带宽需求也不断提高。
Blackwell GPU 架构正是为满足未来 AI 的工作负载而打造,它为全球各机构在万亿级大语言模型(Large Language Model,LLM)上构建和运行实时生成式 AI 提供了可能。并且,其成本和能耗比上一代的 Hopper GPU 架构降低 25 倍。
GPU 最初的核心应用在游戏图形处理,在 AI 中则是重要的运算处理引擎。
需要了解的是,将新架构命名为 Blackwell,主要为了纪念第一位入选美国国家科学院的黑人学者、数学家戴维·哈罗德·布莱克维尔(David Harold Blackwell)。
图丨Blackwell B200 GPU(来源:)
对媒体表示:“此前,训练一个 1.8 万亿参数的模型需要 8000 个 Hopper GPU,并消耗 15 兆瓦的功率。而同样的工作只需要 2000 个 Blackwell GPU 就可以完成,而且功耗仅为 4 兆瓦。”
此外,在一项训练 1.8 万亿参数的 GPT-MoE-1.8T 模型的测试中,根据官网,基于 Blackwell 架构的 GB200 芯片训练速度为 H100 的 4 倍。
除了在生成式 AI 领域,新架构或将推动包括数据处理、工程模拟、电子设计自动化、计算机辅助药物设计和量子计算等领域的突破进展。
而它出色的表现,与引入的多项开创性技术密不可分。
首先,Blackwell 宣称是目前“全球最强大的芯片”。该架构 GPU 具有 2080 亿个晶体管,制造工艺为专门定制的双倍光刻极限尺寸的台积电 4NP 工艺。其中,将 GPU 裸片连接成统一的 GPU 通过 10TB/s 的片间互联完成。
其次,新架构采用了第二代 Transformer 引擎。新一代引擎配备了新的微张量缩放支持以及集成于 TensorRT-LLM 和 NeMo Megatron 框架的动态范围管理算法,可在新型 4 位浮点 AI 推理能力下,实现算力和模型大小的翻倍。
此外,它还采用了第五代 NVLink 网络技术。全新的 NVLink 能够为万亿级参数模型以及混合专家 AI 模型,带来明显的性能提升。它不仅向每个 GPU 提供高达 1.8TB/s 双向吞吐量,还可以保证 576 个 GPU 之间的无缝高速通信。
并且,它还有一个 RAS 引擎。根据公开资料,“Blackwell 驱动的 GPU 将专用引擎和以 AI 为基础的预防性维护功能集成,以此确保可靠性、可用性和可维护性,从而最大限度地延长系统正常运行时间并最大限度地降低运营成本”。
这样,Blackwell GPU 基于此可实现运行诊断并预测可靠性相关的问题,还能提高大规模 AI 部署的弹性,使它能够连续不间断运行数周乃至数月,同时降低运营成本。
新架构还可在不影响性能的条件下,保护 AI 模型和客户数据从而保护隐私,提供更安全的 AI。此外,其配备的专用解压缩引擎可支持最新格式,从而通过加速数据库查询提供强大的数据分析和数据科学性能。
图丨GB200 GPU(来源: )
当日,还发布了基于全新架构的超大规模 NVIDIA GB200 Grace Blackwell 超级芯片。利用 900GB/s 超低功耗的片间互联,把 NVIDIA B200 Tensor Core GPU 与 NVIDIA Grace CPU 相连。
以 GB200 超级芯片为重要组件的多节点液冷机架级扩展系统 GB200 NVL72,具有 1.4 exaflops 的 AI 性能和 30TB 的快速内存,可为高度计算密集型的工作负载提供强劲性能。
图丨GB200 NVL72(来源:)
例如,与相同数量的 H100 Tensor Core GPU 相比,它能够为 LLM 推理工作负载提供 30 倍的性能,同时还能将成本和能耗降低 25 倍。
许多企业都计划采用 Blackwell,其中包括、、、、、OpenAI、、特斯拉和 xAI。
公司 CEO 山姆·奥特曼()对媒体说:“Blackwell 实现了巨大的性能飞跃,并将加速我们提供尖端模型的能力。我们很高兴能继续与合作,共同提升 AI 计算。”
特斯拉、 公司 CEO 马斯克对媒体表示:“当下的 AI 领域,的硬件无可比拟。”
思科、戴尔科技、惠普、联想和 Supermicro、华硕、富士康等公司预计,将提供基于 Blackwell 产品的各种服务器。
此外,多家软件制造商网络,如工程仿真领域的 Ansys、Cadence 和 Synopsys,也将采用基于 Blackwell 的处理器来提升软件性能。
可预见的是,专为生成式 AI 打造的下一代 AI 架构 Blackwell GPU,或将进一步扩大该公司在领域内的领先地位。
参考资料:
https://venturebeat.com/ai/nvidia-unveils-next-gen-blackwell-gpus-with-25x-lower-costs-and-energy-consumption/
https://nvidianews.nvidia.com/news/nvidia-blackwell-platform-arrives-to-power-a-new-era-of-computingv
运营/排版:何晨龙
01/
02/
03/
04/
05/