微软一位GPT-6训练集群项目工程师称,如果在一个州部署超10万片H100 GPU,电网就会崩溃。比尔•盖茨表示,电力是决定数据中心能否盈利的关键。未来几年,AI发展或将受制于芯片设计与电力供应。由于电力供应延迟,美国部分数据中心建设时间已延长了2到6年。
作者 | 郑远方
GPT-5尚未面世,OpenAI似乎已开始着手训练GPT-6,不过电力或许已成为了一个“卡脖子”难题。
AI初创公司OpenPipe联合创始人、CEO Kyle Corbitt透露,自己最近与一位负责GPT-6训练集群项目的微软工程师谈过,后者抱怨称,在跨区域GPU之间部署infiniband级别链接,实在是一件痛苦的事。
Corbitt问到为何不将训练集群集中在同一区域,这位微软工程师回答,“哦我们已经尝试过那么做了,但是如果在一个州放置超过10万片H100 GPU,电网就会崩溃。”
10万片H100是什么概念?作为参考,市场调查机构Factorial Funds的一份报告显示,OpenAI的文生视频模型Sora在峰值期间需要72万片H100——按上述工程师的说法,这个数量足以让七个州的电网崩溃。
数据中心能否盈利、建设时间如何?看电力“眼色”
就在刚刚谢幕的标普全球2024年剑桥能源周(CERAWEEK)上,来自全球的能源行业高管们,谈起了AI技术对行业的推进,也谈及了AI对能源巨大的需求。
“到2030年,AI消耗的电力将超过家庭用电量。”美国最大天然气生产商EQT首席执行官Toby Rice在演讲中援引了这样一项预测。
亚马逊网络服务工程副总裁Bill Vass指出,世界每三天就会增加一个新的数据中心。
比尔•盖茨则表示,电力是决定数据中心能否盈利的关键,AI所消耗的电量是惊人的。AI的使用将推升能源需求,未来几年,AI的发展可能会受制于芯片设计与电力供应。
这不是杞人忧天——由于新数据中心的建设速度高于新建发电厂,供需差距已经开始出现。美国商业不动产服务公司世邦魏理仕(CBRE Group, Inc.)透露,由于电力供应延迟,数据中心的建设时间已经延长了2到6年。
“能源巨兽”
AI“能源巨兽”的称号并非浪得虚名。
OpenAI的Sam Altman就曾为AI的能源、特别是电力需求“叫苦”。在年初的达沃斯论坛上他表示,AI的发展需要能源方面的突破,AI将带来远超预期的电力需求。
有数据显示,ChatGPT每天需要消耗超过50万千瓦时的电力,用于处理约2亿个用户请求,相当于美国家庭日用电量的1.7万多倍;至于搜索巨头谷歌,若其在每次用户搜索中都调用AIGC,年耗电量将增至290亿千瓦时左右,这甚至高于诸如肯尼亚、危地马拉等国一年的用电量。
回望AI还未掀起如此大范围热潮的2022年,彼时中国与美国的数据中心分别占各自社会总用电量的3%与4%。
随着全球算力规模逐步增长,华泰证券3月24日研报预测,到2030年,中国与美国的数据中心总用电量将分别达到0.95/0.65万亿度与1.7/1.2万亿度电,是2022年的3.5倍与6倍以上。乐观情景下,2030年中/美AI用电体量将达到2022年全社会用电量的20%/31%。
分析师进一步指出,由于数据中心分布并不均匀,因此区域性的缺电风险将最先出现(如美国的弗吉尼亚州)。考虑美国电力历史上几乎无增长,因此AI将成为海外发达区域电力重回正增长的重要驱动要素。
电力增量何处来?
缺电自然需要“新电”,但“新电”从何而来?在全球碳中和的浪潮下,光伏、风电为代表的的清洁能源似乎是第一选择,但这只是“理想状态下的选择”。
“我们不可能在几年内新建100千兆瓦的可再生能源(发电厂)。有点难办。”前美国能源部部长Ernest Moniz坦承。
EQT首席执行官Toby Rice补充称,科技公司需要足够可靠的电力,风能和太阳能等可再生能源并不能做到这一点,至于大型核设施(美国目前只有一座在建)历来建造成本高昂,耗时长。“科技公司不会为这些基础设施等上7-10年,那就只能用天然气了。”
这位来自美国天然气巨头的高管表示,已经有建设数据中心的科技公司询问从EQT购买天然气事宜,Rice被问及“你们的输送速度有多快?”“我们能获得多少天然气?”
美股“不再隐秘的角落”
先是“GPU荒”,然后是“电荒”,AI的发展之路实在难言一帆风顺。
值得注意的是,想抓住AI浪潮的美股投资者们,已将目光投向了这个角落。
美国最大的电力生产商和零售能源供应商之一Vistra Energy、美国最大的能源公司Constellation Energy、美国最大的绿色电力公司NRG Energy近一年来股价全部翻倍不止,且都在本周创下了股价历史新高。
从近一年及今年年内区间涨跌幅来看,虽然这三家公司表现不如“地表最强股票”英伟达,但也甩开了OpenAI“背后的公司”微软。