用最小规模,做最强AI,怎么做到?
智东西2月2日报道,本周四,国内最早从事“大模型+Agent”的创企面壁智能开年放大招——发布迄今最强旗舰端侧大模型面壁MiniCPM。
这是一款“2B性能小钢炮”,仅用24亿参数,却能对打百亿级大模型。
此前爆火的欧洲生成式AI独角兽Mistral AI,正是凭借大胆路线,用70亿参数大模型Mistral-7B成功挑战Llama 2,成为证明数十亿参数模型足以做到高性能的标杆之作。
如今,“中国版Mistral”以黑马之姿全面开挂,在多项主流评测榜单性能超越Mistral-7B,而且首次有效实现端侧部署多模态并给出实测样例,能聊天能写代码,还能理解图像信息并给出准确的回答。
做出这些战绩的团队,既年轻又资深,落脚在于中国大模型企业最密集的地区——北京五道口,创立只有一年,科研团队逾100人,清北含量达80%,平均年龄仅28岁。
发布会期间,智东西与面壁智能核心创始团队进行深入交流。据分享,面壁智能有三道大模型技术优势:1)算法优化,自创“模型沙盒”;2)省钱秘籍,支持在CPU上跑推理、在消费级显卡上做高效训练与微调;3)数据治理,形成从数据治理到多维评测的闭环,牵引模型快速迭代。
01.
智能终端“开卷”端侧大模型,
开年黑马为何致力于大模型小型化?
自去年下半年以来,智能硬件的圈子越来越热闹:华为、小米、OPPO、vivo、荣耀等大厂纷纷下场,给手机装上数十亿参数的端侧大模型;AI PC概念扎堆亮相国际消费电子盛会CES 2024;多家创企向AI硬件新形态发起挑战。
用更小模型做更强AI,已是大模型竞赛卷向千亿参数后的又一焦点方向。这反应了智能硬件产品集体面临的问题:云端跑大模型够强,但如果端侧不能独当一面,那么断网不能用、响应延迟慢等问题都会影响终端用户的使用体验。
将大模型落在端侧,关键要做到三点:一是体量够小,二是性能够用,三是成本够低。
由于智能硬件的内存容量和带宽受限,端侧模型越小,计算量和占用内存越少,计算成本、功耗、推理延迟越低,端侧AI应用响应才越快。
在规模飙升的技术竞赛中,成本已成为大模型隐形竞争力。成本代表了大模型的利润率,是智能终端企业关注的重点。端侧模型有全天候低成本的特点,能够通过云端协同弥补千亿级参数模型在大规模部署成本和门槛上的先天不足,减轻云端数据中心的算力负担。
作为一家初创公司,2022年8月才成立的面壁智能,此前专注于研发千亿级大模型和AI Agent,又不像手机大厂那样有足够量级硬件产品的天然优势加持,为何也选择进军端侧?
这要从团队使命说起,面壁智能的愿景“智周万物”、OpenBMB开源社区的愿景“让大模型飞入千家万户”,使其志在让尽可能多的人在尽可能多的地方和场景享受大模型的通用智能。
就像人的智能由脑干、小脑、大脑分管不同任务,未来不同尺寸的模型分工负责不同复杂程度的任务,这样的通用人工智能(AGI)实现路径更加高效。
所以,发力端侧,是面壁智能战略的重要一环。
2B规模的模型,能够应用于离用户更近、更便携的移动设备上,从而在更多地方发挥作用,解决大模型在实际落地中成本高、门槛高的问题。
从技术研判而言,2023年ChatGPT和GPT-4的推出表明大模型技术路线已基本确定,接下来就是要探索其科学机理,并极致优化效率。
清华大学计算机系长聘副教授、面壁智能联合创始人刘知远说,希望这个端侧模型能让更多人意识到,即便是2B尺寸的模型,能达到的能力上限仍远超想象。就像造船舶和飞机有流体力学的支持,其团队致力于将大模型研究科学化,这是真正让它实现商业化与可持续发展的重要动力。
同时,通过云端协同催化应用落地,端侧大模型能够更好地为面壁智能“大模型+Agent”双引擎战略服务。在端侧大模型的技术积累,与将云上大模型持续小型化的技术一脉相承,最终有助于加快迈向AGI。
“Agent能力如果用到端侧模型上,更好地服务于具体场景,创造出更多的价值,我认为在这两个方向上能够互相支撑,产生一些奇妙的化学反应。”面壁智能联合创始人、CTO曾国洋说。
02.
2B参数、1T数据,性能超越Mistral-7B,率先将多模态落地手机
2023年,Mistral-7B横空出世,以7B参数打败了数百亿参数的开源大语言模型霸主Llama 2,成为大模型领域“以小搏大”的典范,意气风发地树立了开源领域的新标杆。
今年一开年,面壁智能接棒挑起“将大模型小型化”的重担:推出“性能新旗舰”面壁MiniCPM,用2B参数规模、1T Tokens精选数据,横扫多项主流评测榜单,中英文平均成绩均超越Mistral-7B,中文和通用能力战斗力超过微软明星模型Phi-2(蒸馏GPT-4)。
面对“山东省最高的山是哪座山,它比黄山高还是矮?差距多少?”这种混合型考题,MiniCPM不仅能给出准确海拔,还能计算差值,速度相较人工搜索与计算显著提升。
MiniCPM-2B不仅通用与中文能力更强,比拼英文时,同样具备跟数十亿乃至数百亿参数大模型掰手腕的能力。
它能绕过多语言混合翻译的陷阱题,比如被要求用英文要求大模型将一段中英文混杂的句子翻译成法语,能理解意图,输出正确答案。
对于角色扮演,MiniCPM同样驾轻就熟:扮演李逵找宋江要钱,能惟妙惟肖地拿捏住说话语气与技巧;给妻子写情书,则自觉塞进一些能够表达爱意的emoji表情。因此可以基于它来驱动一些情感类聊天机器人端侧应用。
此外,MiniCPM编程能力超越Mistral-7B,能实现端侧运行写代码,有助于节省编程工作量。
跟百亿级大模型同场PK,MiniCPM-7B也能在多数评测中性能领先。
在最接近人评的测评集MTBench上,MiniCPM得到了很好的评价。
经过Int4量化后,MiniCPM可在手机上进行部署推理,流式输出速度略高于人类说话速度。
MiniCPM开源地址:
https://github.com/OpenBMB/MiniCPM
MiniCPM不仅能说,而且会看,首批跑通了多模态大模型在手机上的部署。MiniCPM-V评测性能超过其他同等规模多模态模型,在部分评测集上达到与9.6B Qwen-VL-Chat相当甚至更好的性能,能解读图像细节、理解抽象的梗图。
为什么要把多模态的能力落到终端?面壁智能联合创始人、CEO李大海举了个极限的例子,比如去野外露营,信号比较差时遇到一条蛇,怎么判断这是不是毒蛇?这时拍照发给端侧大模型,就能得到及时的响应。如果有紧急情况,也能在网络掉线的情况下,先求助于端侧大模型。
多模态能力不止于此,更大版本的面壁OmniLMM已做到开源社区同规模能力领先。例如,用让大模型猜做什么样的游戏,它能够在多模态连续的模式下与纯文本ChatGPT3.5结合,实现剪刀石头布的功能。
流式实时交互的实现方式是:使用OmniLMM 12B将视频帧转换成文本描述,再基于纯文本ChatGPT-3.5,根据文本描述和用户提问回答问题。
多模态大模型能理解很多图像细节。例如左图的狗狗没有穿导盲犬标识服装,大模型通过周围元素判断出这是只导盲犬;右图中大模型通过电视台的标识推理,判断出这是个电视节目。
这些能力已集成在12B模型上,后续将引入到面壁MiniCPM-V。
OmniLMM开源地址:
https://github.com/OpenBMB/OmniLMM
据刘知远分享,在多模态大模型方向,国内与国际差距相对较小,但技术成熟度不及大语言模型,具体体现在图文处理模式不一致、图像生成和理解尚未形成很好的统一等方面。目前多模态的架构呈多元化,有进一步探索的空间。
03.
省钱才是硬道理!170万tokens推理成本仅1元,1080显卡也可高效参数微调
全方位降低成本,是MiniCPM的一大亮点。
作为一款省钱大模型,MiniCPM支持CPU推理和消费级显卡训练;进行Int4量化后,只占2GB空间,具备在端侧手机进行模型部署的条件。
简单做个算术题,骁龙855芯片成本600元,每秒7.5tokens,以5年计算,可得MiniCPM 170万tokens的端侧推理成本仅1元,是Mistral-medium在云端成本的1%,相当于断崖式下跌。
除了端侧推理外,其成本优势还体现在持续改进的二次开发成本低。因为它最够小,只用1张1080/2080显卡就能进行高效参数微调,1张3090/4090即可实现全参数微调,1台机器可持续参数训练;量化版75%压缩,性能基本无损。
目前MiniCPM主要落地在手机,在更多智能终端场景的落地还需不断探索用户价值。据李大海透露,MiniCPM已跑通国际主流手机品牌与终端CPU芯片,跑在老手机上也无压力。
当前面壁团队未针对手机推理模型进行深度优化和系统测试,仅作为外部开发者验证MiniCPM使用手机芯片进行推理的可行性,欢迎业界合作伙伴和更多开发者一起针对性地优化。
训练模型,高效是关键。在面壁团队看来,在训练模型过程中,全流程高效infra是大模型创业护城河,决定了技术上限,短期可能调出不错的效果,但是深入工作会受到Infra的限制。
面壁智能打造了一套全流程优化加速工具套件平台面壁ModelForce,包括:2021年研发的高效训练框架BMTrain,做到业界SOTA的分布式实现,将千亿模型训练门槛拉低到64卡;BMInf高效推理框架采用高效采样加速算法、稀疏激活方法,可实现3倍推理加速;BMCook高效压缩框架具有Int4无损压缩,可实现5倍以上推理加速,降低70%的存储开销;BMTune高效微调框架提供有多种微调、提示学习等工具包。
借助这些工具,面壁智能可以做到10倍推理加速,90%成本降低。
面壁智能首席研究员韩旭谈道,很多Infra工作利用各种设备和算力来加速训练,另外在算法层面积极找一些和硬件匹配的高效特征,从算法和模型层面来实现高效,两者协同可以实现很好地提高端侧大模型的推理性能。
04.
揭秘最强2B大模型如何诞生:
1T精选优质数据集+自创“模型沙盒”
在交流过程中,面壁智能核心创始团队反复提到一个关键词:高效。
小尺寸是模型技术的极限竞技场,而高效是面壁传统技术优势。之所以能做到“以小博大”,源自团队对算力、数据、算法的多重优化,除了前文提到的“省钱为王”外,还有“数据治理”、“算法优化”这两重buff叠加。
数据治理方面,面壁智能搭建了现代化“数据工厂”,形成从数据治理到多维评测的有效闭环,通过高质量数据积累和持续训练友好的数据策略,牵引模型版本快速迭代。曾国洋说,面壁智能处理异常的经验和数据选择的认知,都是其在大模型持续发力的技术壁垒。
MiniCPM能用1T Tokens数据做出高性能,有两个关键点:一是高质量数据,训练用到精选的高质量数据集;二是上千次预实验,这就涉及到面壁智能在算法优化上摸索出的更高效训练技巧。
算法优化方面,面壁智能自创“模型沙盒”技术,用同样数据量训练出更大的模型,用小模型预测大模型性能,大小模型共享超参数方案,可持续最优,高效可扩展模型训练策略。刘知远打了个比方,这方面的技术壁垒就好比做菜,你拿到菜谱也不一定能做出米其林三星的水平。
沙盒是一种安全机制,为执行中的程序提供了隔离环境,通常是作为一些来源不可信、具有破坏力或无法判定程序意图的程序提供实验之用。面壁智能在发布MiniCPM前做了上千次模型沙盒实验,探索出最优超参数配制,能保证训练任意大小的模型取得最好的效果。
比如把全球在用的学习率调度器做了优化,探索出对持续训练非常友好的Warmup-Stable-Decay(WSD)调度器。调度器全新学习率调度策略能够取得最佳Decay步数,持续训练效率更高。这样的学习率调度器有助于训练出一个模型后,根据后续不同使用目的做定向调优。
除了0.01学习率在任意模型规模取得最优Loss,“模型沙盒”还实现了超参稳定的模型规模扩增,部分调整接近Cerebras-GPT,同一套超参掌管所有模型;最优Batch size,收敛速度与资源消耗最佳平衡点;固定模型倍增上限,随时可退火,获阶段最优模型增长倍数;数据课程,持续训练友好,在WSD调度器的退火阶段加入高质量数据,获得更优能力,也支持持续训练。
刘知远谈道,“大模型”不止是说模型大,其实是一项技术,内置对大数据、参数的治理和科学化的能力,今天面壁智能的技术足以训练一个2B模型,使其发挥出以前至少要4B模型才能做到的事情,对应的方法也可以一脉相承,比如用类似模型做80B甚至800B模型。
关于MiniCPM算法优化的更多细节,可参见其开源项目上传的技术报告。
直通车:https://github.com/OpenBMB/MiniCPM
05.
不执着于“比大更大”,
大模型、Agent宇宙、高效Infra三手抓
在李大海看来,做大模型的一个重要竞争优势,在于有足够强的技术原创探索能力。
作为最早的大模型研究团队之一,面壁智能是少有的一出实验室就引入产业管理者,超前进行商业化公司运营与思考的创业公司。
其联合创始人刘知远是清华大学长聘副教授,联合创始人、CEO李大海是知乎CTO,联合创始人、CTO曾国洋是8岁开始学编程的天才少年,首席研究员韩旭是清华大学计算机系博士后。
据介绍,面壁智能2018年脱胎于清华NLP实验室发布全球首个知识指导的预训练模型ERNIE;2020年12月成为悟道大模型首发主力阵容,发布全球第一个20亿级参数的中文开源大模型CPM;2022年4月成立OpenBMB开源社区。
进入大模型时代,AI技术成熟到可以被标准化、产品化地应用在各行各业。刘知远意识到单靠学校实验室无法进行最前沿的探索,从2021年开始筹备公司,并确立了“让大模型进入千家万户”的初心。之后,身为知乎CTO的李大海先是参与投资,而后担任面壁智能CEO,直接参与管理。
2022年8月,面壁智能公司化运作,并于2023年4月获得知乎投资的天使轮融资,在2023年全年推出多款基座模型与代表性Agent产品。
除了与清华NLP实验室合作外,李大海透露说,面壁智能还与知乎有很多合作,知乎的数据在做多模态大模型训练时起了非常大的作用,这也是面壁智能的优势所在。
当前面壁智能有三大主要产品线:大模型、AI Agent、AI Infra。
面壁智能没有执着于走“比大更大”的路线,但也没有放弃对超大规模语言模型的钻研。其千亿模型CPM-C性能已超越GPT-3.5,推理成本目前是GPT-3.5 Turbo价格的一半,而且有较大成本降低空间。更大、更强的CPM-D正在训练。
清华大学计算机系博士、面壁智能科研团队成员胡声鼎解释说,模型规模扩大是非常重要的,在更小的模型上实验不是目的,而是手段,是为了最终服务于特别大的模型,通向超级智能。开发更小的模型能让智能成本变得更低,满足更多应用场景的需求,进而使更多人能够获得智能。
“看上去我们做的东西很多,实际上内核非常明确,”刘知远谈道,面壁智能和清华NLP实验室的共同愿景是实现AGI,让它服务于整个人类社会,“AGI需要的东西,我们都会做。”
接下来,面壁智能将遵循“大模型+Agent”双引擎战略,探索更小模型、更快速度、更低成本,并将模型全家桶开源,贡献给社区。
06.
结语:挖掘“更小”大模型性能上限,
加速迈向通用人工智能
面壁MiniCPM实现了新的2B大模型性能标杆,在“极其高效、极低成本、极小规模”上做到领先,并在业界首度将多模态能力引入端侧,这些优势来源于其团队在大模型领域的厚积薄发。
除了将模型开源,面壁智能也把研发过程中的各种实验结果和数据配比配方公开,希望与同行一起探讨进步,共同推动迈向通用人工智能。
在刘知远看来,要让通用人工智能惠及每个人,追求更大模型、更强能力涌现、如何充分找到并挖掘固定尺寸的模型性能上限,将是迈向通用人工智能的重要使命。接下来这个领域的任务一定是路线更加科学化、标准化。这也是面壁智能和清华NLP实验室进行产学研结合的重要使命。
最后一个小彩蛋:临近过年,面壁智能开发了一个名为“心间”的应用,其中有基于大模型能力的“磕CP”功能,测试版已开启,欢迎大家试用。
(本文系网易新闻•网易号特色内容激励计划签约账号【智东西】原创内容,未经账号授权,禁止随意转载。)