
当DeepSeek-V3和R1模型在硅谷掀起惊涛骇浪时,人们认为如果低成本都能打造高性能模型,那么依靠昂贵GPU堆砌算力的效果将大打折扣。
然而,英伟达不仅屹立不倒,反而展现出更强的生命力。
刚刚发布的财报数据显示,英伟达第四财季营收为393.31亿美元,较上年同期增长78%。2025财年全年营收1305亿美元,较2024财年增长114%。
H20芯片的订单激增,Blackwell平台的前景一片光明,更多高效模型的出现也点燃了对AI基础设施更加旺盛的需求。
而英伟达的GPU依然是这一领域的首选。
黄仁勋豪言数十亿销量,Test-Time Scaling引爆AI新战场
业界普遍认为,Scaling Law并没有完全失效,只是Scaling的方向正在发生变化,随之而来的则是,AI行业逐渐走向了另一条分叉口——Test-Time Scaling。
Test-Time Scaling主要用于推理阶段,通过分配额外的计算资源来优化模型的推理性能。
英伟达的Hopper架构和Blackwell架构都能显著提升模型推理的效率。其中Blackwell系列更是被寄予厚望,能够为Test-Time Scaling提供强大的硬件支持。
黄仁勋在今天财报的新闻稿表示:
Blackwell芯片架构亮相于去年的GTC 2024开发者大会,以美国数学家David Blackwell命名,旨在支持大规模AI模型的训练和推理,具备高性能和高效率的特点。
但这款今天被黄仁勋誉为“在各个方面都‘表现非凡’”的芯片,却在投产过程中一波多折。
据悉,Blackwell芯片在设计上存在重大缺陷,特别是在连接两个GPU的关键电路上,导致良品率较低。在高密度服务器机架中,Blackwell芯片也会因散热不足导致过热,影响性能并可能损坏硬件。
好在,后续在台积电的帮助下,英伟达修复了设计缺陷。谈及在早期生产Blackwell时遇到的“小问题”时,黄仁勋表示,“这可能让我们损失了几个月的时间。”
不过,他补充道,公司“以光速”恢复,并从中吸取了经验,为Blackwell Ultra(B300系列)的生产做好了准备。他表示,“下一班火车”将按照“每年的节奏”推进。
Blackwell Ultra是英伟达下一代重要的AI芯片,这款芯片在技术规格上实现了显著提升,特别是在推理性能、显存容量和带宽方面,并引入先进的冷却技术。
其不仅配备288GB HBM3E显存,显存容量相比B200的192GB提升,显存带宽达到1792 GB/s,功耗也达到了1400W,按照英伟达的路线图,预计将在今年下半年推出。
谈到Blackwell的过渡,黄仁勋表示:“这是一次非常具有挑战性的转变。”但他预计,未来向Blackwell Ultra的过渡会更加顺利。
他解释说,Blackwell Ultra的过渡更平稳,因为其芯片架构与Blackwell相同。而相比之下,从Hopper过渡到Blackwell的挑战要大得多。
黄仁勋指出,AI芯片最好被视为软件——它将无处不在,遍布每个国家和地区。“每个学生都会使用AI作为导师,”他补充道:“没有一家金融科技公司不会使用AI。”
基于此,市场对Blackwell的需求更是惊人的,推理AI引入了另一条Scaling Law——增加训练计算量可以让模型更智能,而增加长期思考的计算量则能让答案更精准。
英伟达CFO Colette Kress也认为,推理需求正在“加速”。
除此之外,受美国出口管制的影响,英伟达为中国市场推出了特供版H20芯片。
这款芯片性能虽不及H100或H200,但在合规性与性价比上表现出色。尤其是其在DeepSeek模型上的良好表现吸引了众多企业的关注,导致订单在近期出现了“显著增长”。
不过,Kress在财报电话会议上表示,公司的中国数据中心收入“远低于正常水平”。她指出,该收入水平是在监管法规变化之前的情况,并预计中国的出货量将“基本维持在当前比例”。
她还表示,由于Blackwell产能的快速提升,美国的数据中心收入最为强劲。
在过去几个月,全球AI基础设施投资热潮已然形成燎原之势,美国科技巨头在AI领域的投资预算近日也陆续公布,得益于目前英伟达在GPU市场的优势地位,预计不少预算将被收入囊中。
英伟达看似独占鳌头,却也面临挑战。
一方面,正如黄仁勋所说,尽管英伟达制造了很多芯片,但这并不意味着它们会被公司购买,以及部署,他表示,作出商业决策时需要考虑其他因素。
他还提到,英伟达能够继续取得成功并保持强劲的需求,原因之一是该公司“部署能力快如闪电”以及其持续创造更先进的技术。
另一方面,据外媒The Information援引Arm CEO Rene Haas的说法,尽管英伟达在已部署基础设施上占据绝对优势,但芯片初创企业同样正在推动诸多创新,比如光纤基板、共同封装光学器件、革命性内存架构以及内存计算等。
DeepSeek让英伟达市值暴跌?或许只是障眼法
春节期间DeepSeek在硅谷的爆火出圈,也给英伟达的发展增添了新的变量。
通过算法创新、数据压缩和推理优先的设计,DeepSeek以极低的训练成本,打造出高性能模型DeepSeek-V3/R1,引发了一连串的连锁反应。
常规的看法是,受到DeepSeek的冲击,英伟达的市值一度在一天内暴跌了5890亿美元。
但DeepSeek不仅没有削弱“算力至上”的逻辑,反而在某种程度上进一步强化了这一信仰,尤其是DeepSeek模型的训练过程仍旧依赖于英伟达H800芯片集群,而这也是常被市场忽视的关键事实。
黄仁勋上周接受采访时也表示,尽管DeepSeek确实在预训练模型方面取得进展,但后训练阶段仍需要庞大算力;后训练才是培养AI模型智力、即学习如何解决问题和推理的最关键环节。
包括DeepSeek这几天连续开源多个英伟达GPU优化项目,在探索模型性能极限之余,也进一步加深了其与英伟达生态的绑定。
比方说,昨天开源的DeepGEMM是一个高效、简洁的FP8矩阵乘法(GEMM)库。
其采用的Just-In-Time(JIT)设计、两级累加以及高性能优化技术,如TMA和指令重叠,使其在DeepSeek-V3中表现出色,但同时DeepGEMM也是专为英伟达Hopper架构和稀疏专家模型(MoE)优化。
此外,当DeepSeek正在用开源切入英伟达的市场,双向奔赴的英伟达也正在用生态整合DeepSeek的成果。
DeepEP在上午开源后,英伟达下午便将其集成到Megatron-LLM中。有消息称(@共识粉碎机),英伟达内部已将对DeepSeek的支持重要性提升至比Llama更高的优先级,内部资源和流程也是一路绿灯。
春节期间,关于DeepSeek-R1的NVIDIA NIM微服务的预览版上线。
这意味着开发者可以在英伟达的平台上测试和使用DeepSeek-R1模型,结合NVIDIA AI Foundry和NVIDIA NeMo软件,企业还可以定制DeepSeek-R1 NIM微服务,以构建特定领域的AI应用。
英伟达近期更是开源了专为Blackwell架构调优的DeepSeek-R1版本。该版本在推理处理速率提升至原来的25倍,同时每个token的计算成本仅为此前的1/20。
从机遇角度看,DeepSeek的开源正在为英伟达带来前所未有的市场红利。
黄仁勋在电话会议中也提到,“DeepSeek R1点燃了全球的热情”。短期内,开源引发的算力热潮直接推高了GPU销量。
长期来看,开源社区的活跃将进一步巩固英伟达的生态优势,开发者对CUDA的依赖只会加深,而企业客户在追求更高性能时仍会选择Blackwell等新品。
最底层的逻辑是,低成本模式适用于消费级应用,但在企业级AI(如AGI研发)中,英伟达的高端芯片仍是不可替代的。未来,AI行业可能走向“双轨制”,低端市场追求性价比,高端市场继续依赖算力驱动。
开源是AI的催化剂,但催化剂需要强大的硬件承载,英伟达正是那个承载者。
用一句更形象的话概括,当全世界都在担心DeepSeek会成为英伟达的掘墓人时,黄仁勋却在背后悄悄给它递了把铲子:
不是用来挖坟,而是一起挖金矿。