天下苦英伟达久矣。
10月6日,路透社报道称,有消息表示OpenAI正在探索打造自研AI芯片,并在评估潜在的收购目标。
在OpenAI的官网上,也能发现几个可能与自研芯片相关的岗位,比如这个图形编译工程师,年薪24.5万~38.5万美元。
插个题外话,OpenAI几乎所有岗位都享受微软今年新公布的一个政策“Unlimited time off”,就是字面意思,无限制假期,想怎么休就怎么休。
图源:OpenAI官网
最近自研AI芯片的大厂非常多,比如英伟达的六大客户,微软、特斯拉、谷歌、亚马逊、Meta加上OpenAI都传出自研AI芯片的消息。
不过有意思的是,作为大股东的微软,其自研芯片项目“雅典娜”(Athena)和OpenAI此次传出的消息并不是一回事,二者大有各过各的感觉。
自研归自研,大家心里其实千言万语就一句话:咱都是有头有脸的人,凭啥天天跪在黄老爷门前求卡?
自ChatGPT掀起大模型浪潮以来,英伟达的GPU便持续供不应求,这种状况在H100问世,相较于前任A100,在原本一个星期的工作量,现在只需要20个小时的性能加持下,争抢H100这事更是愈演愈烈形成军备竞赛。
Nvidia vs. AMD vs. Intel: 历年AI芯片销量对比. 图片来源: Visual capitalist
要知道,AI不赚钱早已是产业共识,红杉就有分析师算了一笔账,称当前全球AI产业的收入和支出之间,存在一笔每年1250亿美元的巨大缺口。
这一缺口,一方面是数据中心的庞大能源消耗所导致的,另一方面则是买芯片搞基建带来的资本开支。
抢卡早已是共识,即便H100成本大约3000美金,而售价则是35000刀,即便英伟达毛利率近70%,也挡不住大厂们势要打造“人无我有”的超强算力,以及不管怎样,相比于老款芯片更高的“单美元效率”。
这也难怪马斯克会抱怨“现在连狗都在买GPU”,也有公司拿着一纸英伟达的H100“供货承诺”,就能拿到23亿美元的债务融资。
也不知道如果拿着贵州茅台承诺卖我10万箱飞天的承诺书,能不能去银行贷款。
给黄老爷纳贡是一回事,耽误不了回家自己打小算盘。这不马斯克刚骂完,就在7月推出了由定制AI芯片D1所打造的Dojo超级计算机,用以训练其自动驾驶系统。
摩根士丹利也很配合,赶紧发了篇研报表示:我们算了算,特斯拉这套系统比过去用英伟达的A100足足省下了65亿美元。
这套系统比用英伟达更强,并不是说在芯片设计方面特斯拉就超越英伟达了,只是由于相较于英伟达GPU讲究一个“卖给谁都能用”的通用性,Dojo专注于特斯拉的自动驾驶训练,针对性更强,从而实现更高的效率。
归根结底,就是更便宜。
实际上这也是所有大厂要去自研AI芯片的主要原因:意图提高与自身训练目标的匹配度,以降低算力和功耗的“浪费”。
大厂们抱怨太贵,还只是短时间影响一下财报的美观程度,那“买不到”这事,可是实打实的影响企业的长期发展。
有预测称,2023年英伟达H100的出货量大概在50万张,但随着AIGC应用以及AGI的迭代升级,算力需求将会持续水涨船高,金融时报预测称2024年H100的出货量将高达150万张-200万张。
芯片供不应求是铁打的现实,今年5月底, ChatGPT之父阿尔特曼就公开表示目前OpenAI的GPU极其有限,这推迟了他们的许多短期计划,并且“大部分问题都是GPU短缺造成的”。
当然,随着产能爬坡,这种缺口肯定会有所缓解,可这核心技术掌握在外人手里,多少有种随时会上来卡一下脖子的错觉。
Analytics India Magazine又算了一笔账,“如果OpenAI继续以目前的速度烧钱,极有可能会在2024年底破产”。
这种话扔谁头上能不着急?
自研一方面是“节流”,同时还有“开源”的可能性,虽说自研芯片是根据企业自身情况所开发的“定制款”,但魔改一下谁说就不能卖给同行?
高通很多车机芯片不就是原来手机芯片改改,再拿去卖的嘛。
同时,OpenAI还有出售专有定制化模型的业务,而这块业务受限于算力紧缺和英伟达GPU过于标准化的原因,现在的销售模式是要求客户在啥玩意都没有的情况下先支付10万美元的定金。
好家伙,贾会计的车都还有宣传片呢,到它这直接打白条了,这能有几个大冤种愿意买?
自研芯片好处确实多,但摆在眼前的困难就有两个:CUDA和带宽。
CUDA这种英伟达研发的编程语言,其实才是它能够把GPU卖到如此高价而客户又不得不接受的主要原因,一位业界人士在比较GPU和ASIC(定制芯片)时,用了这样一个比较:“平时开车,你可以用普锐斯,但如果你必须在山上用四轮驱动,用吉普牧马人就会更合适。”
关于CUDA的来龙去脉这里就不过多解释,有兴趣的读者可以移步我们之前发过的一篇文章《疯狂的H100》。
那么当这些大厂纷纷自研芯片的时候,早已熟悉了CUDA编程语言的开发者们还得重新学一门新的编程语言,这谁愿意?
要么就会遇到过去曾经发生过的问题,有位私有云公司的CEO在接受采访时说过,他们也不是没想过转去买AMD的卡,但要把这些卡调试到正常运转至少需要两个月的时间。
等于造出来大概率还是得自己用。
另一个问题是带宽,简单理解,如果说强大算力是一台豪华跑车,那么带宽就是马路,路修得不好,车再高级也得憋着。
如果各位有自己组装过机箱的,应该都看到过PCIe插槽,这玩意学名叫外围组件快速互连,其实就是一种高带宽线,用于显卡、固态硬盘、无线网卡等等外设之间的高速数据传输。
而AI服务器通常都是多个CPU和GPU堆叠在一起组成一个“算力包”构成的,那么在CPU和GPU之间,GPU和GPU之间同样需要数据传输。
这个时候,PCIe协议就派上用场了,而AI服务器为保证传输效率,至少要PCle 4.0、5.0及以上版本,这技术专利只掌握在少数几家公司手里。
英伟达自己用的是NVLink,也是一种高带宽线,保证了GPU和GPU之间的高速传输。
那么自研芯片的各位怎么办?这里又有一位大佬,名叫Broadcom(博通)。
简单来说,这家公司拥有这种适用于AI服务器的高速数据传输技术专利,想要用,还得向它买。
谷歌当年在研发自家芯片(TPU)的时候,就是和博通合作开发,最近谷歌还想和博通分家,最后还是没能实现,Meta自研芯片同样也是和博通合作,苹果至今仍是博通的最大客户。
据悉,受益于定制芯片市场的火热,博通CEO Hock Tan在今年6月财报后电话会议上表示:“AI热潮下,大量公司对AI芯片的需求将使该公司AI相关营收翻番,预计下一财年AI相关营收将增至约75亿美元,AI芯片收入很快就会超过公司总营收的25%。”
在过去一年里,博通的股价已然翻倍。
合着就算大家能想尽办法避开了英伟达,还是得给博通交税呗?
就算真自研了,那至少也是以年为单位的万里长征,很长一段时间里OpenAI还是高度依赖英伟达。
黄老爷着实是又高又硬。
亦感谢实习生马文琦对本文的贡献
参考材料:
[1]这颗博通芯片,涨到14万,芯世相
[2]To Reduce AI Costs, Google Wants to Ditch Broadcom as Its TPU Server Chip Supplier,The information
[3]Unlocking Tesla’s AI Mojo… Enter the Dojo: Upgrade to OW, PT$400, Top Pick,摩根士丹利