企业对大模型的算力成本有着切身的感受,但算力背后,存储也是非常关键的一环,如何提高存储的性能、降低存储的成本,将深刻影响到大模型训练及后续应用的成本。先进的存力成为大模型落地的必答题。
文|徐鑫 周享玥 游勇
编|周路平
ChatGPT掀起的大模型热已近一年时间,相比于新技术带来的革命性体验,客户们的另一个反馈同样非常迫切——如何降低大模型的训练和落地成本。
作为对新技术一向敏锐的金融行业,在这次大模型的应用和落地中走在了前面。不过,一些大型银行和证券机构也告诉数智前线,金融大模型落地存在工程化难度大、场景价值有待验证等因素外, 核心痛点还包括大模型的训练和落地成本居高不下。
过去大半年, GPU算力短缺、价格高涨的新闻层出不穷,人们对昂贵的AI算力有了很直观的感知。然而,围绕大模型应用的存储成本也随着需求爆发而快速增加,在 保证高存储性能的同时,需要降低存储成本已经在业内形成共识。
11月30日,数据分析机构爱分析联合京东云发布了《金融行业先进AI存力报告》,报告中明确提到, 先进存力是金融行业大模型落地的必答题。而金融行业作为大模型落地的先锋行业,其对先进存力的需求表现出了几个非常共性的特征:可用、可信、可控。
包括京东云云海在内的国内存储产品,通过存算分离的分布式存储架构,正在破解金融等行业应用大模型存在的存力短板。
01
金融成为大模型应用的先行军
金融行业对大模型的应用落地探索还在持续深入中,仅是这个月,已经有不少企业亮出新动态。
前脚,中国人保发布专属企业大模型“数智灵犀-人保大模型”,并亮相两款人保专属问答领域大模型应用;后脚,华夏银行也抛出一份招标公告,要为大语言模型应用系统项目(智能算力部分)征集供应商。2023金融街论坛等多场金融行业活动上,大模型也是反复被讨论的重点。
这只是金融行业落地和应用大模型的一个缩影。来自爱分析的一份报告显示, 能源、金融已成为大模型建设的领军行业,二者在投入预算上最为积极,在大模型市场(企业用户侧的预算金额,其投向包括硬件、软件和服务)中金额占比 分别达40.9%、16.9%。
业界的普遍共识是,金融行业 数字化基础好、AI应用场景多,同时又高度 重视数据和技术,有 较强的预算投入实力和意愿,是大模型落地的高潜场景。
大大小小的金融机构们,也对大模型抱有不小的期望。一位业内人士至今还记得自己5月份在大理的一间寺庙里,偶然碰上和她谈论大模型的金融人时的讶异。这个对技术有着深度信仰的行业,几乎是ChatGPT热潮一来就迅速反应,纷纷组建团队,开始找落地场景。
可以看到,过去半年多,智慧办公、智能开发、智慧营销、智能客服、智慧投研、智能风控、数据分析等金融行业多个场景被一一探索,部分场景也已进入试点应用阶段。建行称内部已有20多个场景投放应用,农行透露已在30多个场景中进行了试点,广发证券则表示,正在探索将大模型和此前推出的虚拟数字人平台打通……
毋庸置疑,金融行业已经成为应用大模型的前沿阵地,但要真正实现“变革性的效果”,仍然还有很多问题需要解决。
10月中旬的一场大会上,有嘉宾分享了他们对数百家金融机构的走访调研结果:虽然几乎所有金融机构都已启动对大模型的探索,但在大模型实际落地过程中,还存在着 模型选择难、算力供应不足、应用成熟度不足等诸多问题。
为了支撑大模型时代的AI应用,大量金融机构,已经开始考虑如何重塑自己的IT基础设施,以此来解决大模型落地过程中的各种“桎梏”。 而其中,算力和数据是首先被想到的。
相比于直接用公有云的服务,金融行业的特殊性,使得很多金融客户都在自建算力基础设施。包括建行、工行等国有大行在内的金融机构都在今年进行了不少的算力采购。
而在数据层面,业内人士透露,不少头部金融机构正在通过大模型+MLOps的方式解决数据问题,越来越多的腰部企业也在开始陆续去构建数据中台和数据治理的体系。
但仅仅解决算力和数据问题仍然是不够的,京东云存储研发负责人告诉数智前线,他们最近接触了不少正在自建大模型基础设施的头部金融机构,对方反映最多的问题是,为了解决大模型所需的算力问题,他们采购了不少GPU,但当GPU真正跑起来了,网络和存储能力却遇到瓶颈了, “GPU老是出现等待问题”。
GPU算力昂贵,而且现在大模型的训练都是千卡级别,存力性能不够会制约算力的发挥。爱分析的报告中提到,在同样的GPU算力规模下,存储性能的高低可能造成模型训练周期数倍的差异。
“算力、网力、存力,将会是制约生态效率的关键因素。” 京东云存储研发负责人认为,大模型基础设施建设的最佳实践,一开始就将包括计算、网络、存储在内的整个基础设施进行统一规划。据他观察,大量的金融客户目前正从只关注算力的建设,转变为也 关注先进的网力和存力的升级,以避免造成算力资源的等待和浪费,让花大价钱买入的算力发挥出最大效力。
实际上,不止大模型,金融企业在其他一些数字化转型场景方面的需求,也在促使他们加大对计算、存储、网络等基础设施的建设。京东云金融解决方案相关人员透露,不少中小金融机构就都曾出于降本增效的需求找到他们,希望对其传统的存储系统做升级和改造。
02
大模型对存储有了新需求
相比于传统AI的需求,大模型的场景具有数据量大、参数规模大、训练周期长等特点。相对应的,它对存力提出了更高的要求,更加强调高吞吐、高IOPS、高带宽、低延时等极致性能。
爱分析的报告中提到,金融行业需要 可用、可信、可控的AI先进存力。而且,这种需求贯穿了大模型从数据采集处理、训练到推理应用等各个环节。
在数据的采集和预处理环节,通常情况下,AI大模型的海量数据来自不同的应用,由不同的协议来采集或存储。京东云金融解决方案相关人员介绍,数据要方便导入模型,从而完成训练任务。因此,这一阶段下,既 要求存储产品的容量大,吞吐量要高,还要求数据协议转化和使用便利性有保障。
在训练环节,卓越的存储性能直接关系到数据整理、数据加载和阶段性模型存储等任务能否高效运行。他透露,存储有一个整体目标,就是 减少算力等待时间,提升整个模型训练效率。
数智前线获悉,数以月计的大模型训练过程,其实要完成多轮训练。每次训练都要把庞大的数据源重新打散和分配。过程里海量的小文件不断被重新编排和组织,量级惊人。“有些是图片,有些是一小段文本,要把里面的内容提取出来,做一些归类等训练,小文件的量级可能达到几十亿。”京东云云海研发负责人告诉数智前线。
传统应用中,存储系统也面临海量小文件的处理任务,但经常分散在几个月的跨度里。大模型训练场景却要求几个小时完成这个任务。这使得存储每秒钟要处理的数据量远超过传统互联网应用里的峰值。“以双11为例,电商业务顶峰时段,某个系统对存储带宽的要求可能在几百GB 每秒,但大模型训练,可能每秒要达到上TB的带宽”, 京东云云海研发负责人说,这要求大模型场景下的存储性能相比传统产品提升几百到上千倍。
为避免大模型故障,经常要阶段性保存训练的结果,业界称为“checkpoint”。千亿参数级别的模型训练,高峰时段可能需要在数十秒内处理 TB 级别的数据存储。资深人士介绍,这个步骤存储系统要尽量避免任何中间传输损耗,数据拷贝的性能损耗,从而把网络和磁盘的物理硬件性能充分发挥出来。
上述资深人士认为,目前国内面向AI大模型场景的存储解决方案生态尚有待进一步丰富和发展。不过已经有厂商从自身的大模型应用实践中看到了市场的痛点,并以高性能产品来满足需求。以京东云云海的高性能极速版为例, 该产品具备高吞吐、高带宽和低时延等特性,可满足金融行业客户的需求。
比如在大模型训练的并行文件存储时,云海极速版的单文件系统支持千万级IOPS,上千台服务器可同时并发访问;单客户端数据能达到200μs延迟和数百GB/s的读写吞吐。在高性能之外,云海产品的稳定性还经过京东自身海量数据规模和复杂场景的考验。
值得一提的是,当下金 融行业信创进程正在加速,业界也关注到,银行、券商等金融客户在存储产品选型时已经把保证核心技术自主可控等纳入考量。主流厂商们正大力加强自身产品对国产软硬件的兼容。目前京东云云海已兼容全系列国产软硬件,而且核心技术自主可控,能够满足国产化适配的需求。
资深人士还观察到,近年来,一些新趋势也在出现。一些金融行业客户在此前常见的软硬件一体解决方案之外,还希望存储产品交付时能够实现软硬解耦。这样既能利用好企业内已有的硬件资产,充分利旧,另外也能保持相应的自主权和灵活性,符合组织内严苛的采购流程和规范。目前,京东云云海的产品包含 软硬一体和纯软件交付两种模式,更为灵活,也受到不少客户欢迎。
大模型落地的成本问题也是业界关注重点。今年2月国盛证券估算过,GPT-3训练一次的成本约为140万美元,对于一些更大的LLM模型,训练成本介于200万美元至1200万美元之间。千亿级别参数,动辄以月来计算的训练过程,反映到存储环节,本身就意味着巨大的成本。
为了提升性价比,除了从存储性能上让昂贵的GPU资源得到充分利用,提升模型训练效率,一些产品和解决方案已经着重思考如何以更低成本来满足需求。例如,京东云云海从软件和一致性算法等层面入手,解决海量规模带来的管理难度增加以及成本的指数级增长。
总体而言,金融行业里大模型的探索实践和智能化转型升级特性,正呼唤着存储产品在更高性能、更可信和更具性价比等层面进行升级。
03
下一代分布式存储走向何方
大模型对先进存力的需求蓬勃生长的背后,行业也在期待新的分布式存储架构和产品,破解高性能、高稳定性以及可扩展和运维上的痛点。
事实上,国内大部分存储还是第一代产品和技术,基于诸如CEPH开源架构做了一些商业化版本。而像CEPH开源架构本身,已经是一个将近20年历史的架构,过去一直没什么太大的变化,面向的是一些低速存储硬件。但存储的硬件这些年无论是性能还是价格都有很大的优化,软件反而成了性能释放的瓶颈和短板。
京东云云海身上有一个鲜明的标签——“下一代分布式存储”。 京东云存储研发负责人说,下一代并不是在上一代存储的基础上做一些性能优化,而是 整个技术体系有彻底的变化,“上一代积累的很多经验完全要推倒重来。”
“下一代”背后主要有双重含义: 一是软件架构领先,二是在工程实践真实落地。
和传统的存储不同,京东云云海引入了全异步、非阻塞、无锁化全量的架构。尽管下一代分布式存储的代码量比上一代的存储架构多了5倍,给编程和工程都带来了很大的挑战,但带来的收益也非常可观。
从京东云海在金融行业的实践来看,在相同的硬件条件下,“整个产品的表现达到了可以 媲美集中式存储,或者传统分布式存储10倍的水平,并且成本没有提升。” 京东云存储研发负责人说,比如IOPS比上一代产品有10倍的提升,IO延迟低于百微秒,已经是业内领先的水平。
相比于对技术演进方向的准确判断,其实更大的难题在于这些新技术和产品,如何在工程落地中经受住大规模场景的实践考验。科技企业早期都喜欢去打榜,以展现产品或技术的先进性,但业界发现,榜单的表现与真正的规模化工程实践还有巨大的鸿沟。
尤其是存储作为非常底层的支撑产品,稳定性要求高,数据损坏或者丢失不可逆,客户对存储产品的更换会更加谨慎。诸如银行等金融客户在选型时都非常在意,产品本身是否有过大规模的生产和实践。
京东云存储研发负责人坦言,全异步、非阻塞、追加写等技术思路业内基本有共识,目前市面上开源产品很少跑通,可参考的生产实践也非常少。京东的优势在于,10年前就开始自研存储,当时解决的是内部的需求。这些 内部场景给下一代分布式存储的工程实践提供了天然的练兵场。
一是京东集团本身业务多元化,除了电商,也有物流、金融、健康和科技等业务,不同的业务场景对存储的要求不太一样,比方金融场景更偏安全可靠,需要多地容灾;物流场景更偏实时性,支持订单的实时响应;搜索推荐更偏高吞吐的要求。“方方面面的这种需求,都有过一些实践。” 他说。
二是京东的业务体量对存储的性能要求也非常高。
如今,云海在性能上已经做到接近本地盘的性能。 京东已经在把本地盘切换到云海的分布式存储,经历了大促的检验。
云海根据京东自身的业务场景和生产实践孵化而来,经历内部积累的技术实践,能很好地匹配包括金融客户在内的需求。
不过产品对外输出,外部客户的IT环境与内部存在不小差异,这也考验云海的适配能力。比如云海之前在京东内部使用,底层资源用的都是京东云,但服务外部客户,需要面对各种各样的云产品,每家云的技术体系不太一样,适配的便捷度,过程是否平缓,适配完是否会导致性能衰减,都是需要解决的挑战。
云海产品经理回忆,云海最早服务的一批外部客户就是金融企业,经常会面临客户规划的资源,与云海要发挥最佳实践所需要的资源不匹配的情况,有些客户提供一些虚拟机,不仅要求软件跑起来,性能和时延都要在这个环境下看到效果。 云海正是在不断完成适配的过程里,打磨出了产品的能力,从而在客户的场景里能满足各类要求。
类似的问题在现实的工程实践中经常碰到,甚至因为整个工程的复杂度涉及方方面面,要把产品做到极致,不光是自己的代码可能会出bug,使用的一些操作系统和依赖的运行库也会有问题。“整个的难度在于全链条都有可能发生问题,都需要去解决。” 京东云存储研发负责人说。
不过,他发现, 越来越多的外部客户在认可互联网公司的技术演进方向,比如很多金融客户也认为存算分离是基础设施演进的必然趋势。而且,这些头部银行客户在做一些技术选型时,找的大多也是互联网类的云厂商。
如今,大模型的蓬勃发展,金融行业对先进存力的需求越来越旺盛,京东云云海作为先进存力的代表,通过自研下一代分布式存储技术,在满足高性能、高稳定性和高可用性等刚性需求的同时,也提供了软硬解耦的交付方式,正在得到越来越多金融客户的认可和信任。