声明:本文来自于微信公众号 子弹财经(ID:zidancaijing),作者:张樵,授权站长之家转载发布。
12月1日,阿里云举办发布会,正式发布并开源“业界最强开源大模型”通义千问720亿参数模型Qwen-72B。同时,通义千问开源了18亿参数模型Qwen-1.8B和音频大模型Qwen-Audio。
至此,通义千问共开源18亿、70亿、140亿、720亿参数的4款大语言模型,以及视觉理解、音频理解两款多模态大模型,实现了“全尺寸、全模态”开源。
这是一场可以用“不同寻常”来形容的发布会,不仅仅因为它广受外界关注,更重要的原因在于,从这场发布会释放出的信息来看,今年以来众说纷纭,莫衷一是的“百模大战”的胜负和大模型路径之争,已经有了初步的答案——在阿里云“无开放,不生态”策略的驱动下,作为国内落地最深、应用最广的大模型,通义千问希望延续阿里云在“前AI时代”就信奉的创新底座角色,以AI底座的开放培育上层生态的繁荣。
1
阿里云的开放逻辑
这并非阿里云在大模型开源方面的首次动作。作为国内最早开源自研大模型的“大厂”,阿里云希望通过开源,让海量中小企业和AI开发者更早、更快地用上通义千问。
今年8月,阿里云就已开源通义千问70亿参数模型Qwen-7B,今年9月,通义千问140亿参数模型Qwen-14B及其对话模型Qwen-14B-Chat也实现了免费商用。
此次发布会上,阿里云CTO周靖人表示,开源生态对促进中国大模型的技术进步与应用落地至关重要,通义千问将持续投入开源,希望成为“AI时代最开放的大模型”,与伙伴们共同促进大模型生态建设。
大模型的前景无须赘言。但是,与基础软件产业的变革和发展历程相同,大模型有着开源和闭源两条发展思路,同样有着相当于智能手机的“iOS”与“Android”之争。
在国外,OpenAI选择的就是闭源路线,除了ChatGPT,没有具体的产品应用,对外则通过提供接口和投资的方式繁荣生态。Meta旗下的大模型Llama2则选择了开源,用开源生态加速Llama的迭代和升级。在国内,例如BAT三巨头,腾讯云和百度云的大模型采用的是闭源路线,阿里云则选择了开源路线。
业界由此分成了两派。在支持闭源的人士看来,大模型闭源的好处是能够提供更加成熟、稳定的产品,客户只要付费购买,即可直接使用。同时,还能够提供更加专业的技术支持和服务。
大模型开源的拥趸则认为,开源能够帮助用户简化模型训练和部署的过程,使得用户不必从头训练模型,只需下载预训练好的模型并进行微调,就可快速构建高质量的模型或进行相应的应用开发。
“大模型究竟是开源更好还是闭源更好,实际上与‘先生态,后商业’还是‘先商业,后生态’的这个问题有关”,大模型行业人士告诉「界面新闻·子弹财经」,按照以往科技发展的规律来看,头部的技术服务商,一般都会先建立生态、落地应用,然后再讲商业模式,现在大模型仍然遵循着这个规律。
如近期周靖人就曾说过,“大模型这部分应该先注重生态,然后再注重商业化,而不是说一开始就过度围绕商业化。”而建立生态的前提就是开放。
在今年的云栖大会上,阿里巴巴集团董事会主席蔡崇信反复强调的一个关键词就是“开放”:“我们坚信,不开放就没有生态,没有生态就没有未来。同时,我们要始终攀登技术高峰,只有站在更先进、更稳定的技术能力之上,才有更大的开放底气。”
图 / 云栖大会
与其他头部厂商不同,阿里一直就有技术开放的基因,例如,操作系统、云原生、数据库、大数据等等,在这些领域,阿里都有自主开源的项目。
此外,阿里在去年11月推出了AI开源社区“魔搭”。阿里的数据显示,中国几乎所有的大模型头部研发机构都已将“魔搭”作为模型开源的首发平台。经过一年的发展,“魔搭”现已汇聚了280万开发者、2300多个优质模型,模型下载量超过1亿。
不仅如此,阿里云充足的算力资源,也是其选择开源的重要原因。云和AI都离不开算力,特别是大模型,对于算力有着更高的要求。阿里的优势本就在云计算,数据、算力和存储这些关键的底层资源。
从阿里云今年以来的发布和展示来看,阿里云已具有全栈化AI能力,还有更加完整的通义大模型系列,这样的能力体系背后,还是离不开算力。这也是大模型时代,MaaS层会成为头部云服务商最重要的业务环节的原因。
在国外,如微软这样的云服务巨头,也已扩大了开源模型的MaaS服务,他们也是依靠连接产业链的上、中、下游,才形成了规模化和平台化的生态。
阿里云未来的角色同样如此,以云平台为基础,将大模型的构建和应用让给行业,用以连接众多的企业和个人开发者,从而构建新的生态。
自此,阿里云大模型的开源逻辑更加清晰,即通过开源的方式提供技术产品,降低门槛,推动技术普惠,为企业客户到个人开发者提供多元化、全方位的技术服务。在通义千问的基础上创建的大模型、小模型越丰富,AI生态就越繁荣,阿里云的前景也会越广阔。
2
“站在巨人肩上”
据介绍,此次最新开源的通义千问Qwen-72B有高性能、高可控、高性价比等特点,可为业界提供不亚于商业闭源大模型的选择。
从性能数据来看,Qwen-72B在MMLU、AGIEval等10个权威基准测评中,都拿到了开源模型的最优成绩,成为性能最强的开源模型,甚至超越了开源标杆Llama2-70B和大部分商用闭源模型(部分成绩超越GPT-3.5和GPT-4)。
基于Qwen-72B,大中型企业足以开发各类商业应用,高校、科研院所则能够开展AI for Science等科研工作。
从18亿、70亿、140亿到720亿参数规模,通义千问不仅成为业界首个“全尺寸开源”的大模型,而且广受外界欢迎。
据介绍,此前开源的通义千问系列模型先后登上HuggingFace、Github大模型榜单,得到了很多企业客户和个人开发者的青睐,累计下载量已超过150万,催生出150多款新模型、新应用。用户可在“魔搭”社区直接体验Qwen系列模型效果,也可通过阿里云灵积平台调用模型API,或基于阿里云百炼平台定制大模型应用。
据了解,目前,从企业/高校到创业公司,再到个人开发者,基于通义千问开发强大的AI平台和应用,实现了业务的迅速成长的例子比比皆是。
华东理工大学的X-D Lab(心动实验室),专注于社会计算和心理情感领域的AI应用开发。基于开源的通义千问,团队开发出了心理健康大模型MindChat(漫谈),主要提供心理抚慰、心理测评等服务、医疗健康大模型Sunsimiao(孙思邈),主要提供一些用药和养生建议、教育/考试大模型GradChat(锦鲤),主要为学生提供就业、升学、出国留学等方面的指导。
X-D Lab团队成员表示,从可持续性、生态和场景适配这三个维度判断和比较,通义千问是最合适的选择。“此前有一家企业找我们合作,我们只用20万tokens的数据微调了Qwen基座模型,就得到了比另一家用百万级数据微调的模型更好的效果。这证明了通义千问基座模型的能力,也证明了我们有很好的行业know-how。”
“我对72B的模型抱有非常大的期待,好奇72B在我们领域中的能力极限值。高校计算资源有限,我们可能不会用这么大参数的模型直接做推理服务,但可能基于Qwen-72B做些学术探索,包括利用联邦学习算法处理数据,也希望72B的推理成本能得到很好的控制。”
对于初创企业有鹿机器人而言,大模型的开源十分关键。该公司专注于大模型+具身智能领域,致力于让每一台专业设备都拥有智能性。目前,有鹿机器人在路面清洁机器人中集成了Qwen-7B,使机器人能以自然语言与用户进行实时交互,理解用户提出的需求,完成用户布置的任务。
有鹿机器人创始人、CEO陈俊波表示:“市面上能找到的大模型,我们都做过实验,最后选了通义千问,原因在于,第一,它是目前至少在中文领域能找到的智能性表现最好的开源大模型之一;第二,它提供了非常方便的工具链,可以在我们自己的数据上快速地去做finetune和各种各样的实验;第三,它提供了量化模型,量化前和量化后基本上没有掉点,这对我们非常有吸引力,因为我们需要把大模型部署在嵌入式设备上;最后,通义千问的服务非常好,我们有任何需求都能快速响应。”
在众多个人开发者的眼中,通义千问代表着各种可能性。在电力行业就职的土土,主要负责新型电力系统、综合能源的宏观分析、规划研究和前期优化工作。他利用通义千问开源模型搭建文档问答相关应用,想要探索大模型应用于电力领域的各种可能性。
“我用Qwen做基于私有知识库的检索问答类应用,场景很特殊,经常需要从几十万甚至上百万字的文档中查找内容,给定一个英文文档,告诉大模型需要查找的内容,请大模型根据文档目录回答,在哪个目录项下可以找到答案。”土土介绍道。
专业领域的文档检索和文档解读任务,对内容准确性和逻辑严谨性有很高要求。在试过的几款开源模型中,通义千问是最好的,不仅回答准确,而且没有那些稀奇古怪的bug。“通义千问14B的开源模型表现已经非常好,72B就更让人期待了,希望72B能在逻辑推理方面再往前走一步。那样的话,再加点程序手段,基本就能摆平文档检索和解读任务。做好了基础的,再把难度逐步提升,比如按照这个行业的国家级标准来要求大模型。”
目前,基于Qwen的行业模型如今涉及各行各业,包括医疗、教育、自动假设、计算机等等。
有开发者兴奋地表示,除了开源大模型,最新举办的“通义千问AI挑战赛”也有着很大的吸引力,既可以尝试通义千问大模型的微调训练,探索开源模型的代码能力上限,也能够基于通义千问大模型和魔搭社区的Agent-Builder框架开发新一代AI应用,“有一种站在巨人肩上,不惧挑战、收获成长的感觉。”
3
大模型“起风了”
在今年11月举办的世界互联网大会乌镇峰会上,阿里巴巴集团CEO吴泳铭的一番话,让「界面新闻·子弹财经」印象深刻:
“AI技术将从根本上改变知识迭代和社会协同的方式,由此驱动的发展加速度将远远超越我们的想象。”
“AI与云计算的深度融合,将成为云计算迭代的重要动力。‘AI+云计算’的双轮驱动,是阿里云面向未来、支撑AI基础设施的底层能力。”
“阿里巴巴将立足‘科技平台企业’定位,打造更加扎实的基础设施底座,不断加大开放和开源力度,和广大开发者一起营造繁荣的AI生态。”
这些话很好地向外界阐释了阿里的过去、现在和未来:此前,阿里的业务涵盖物流、支付、交易、生产等多个环节,为这些环节提供数字化商业服务。在AI已成为中国数字经济和产业创新最重要驱动力的背景下,阿里变成了一家“科技平台企业”,将为各行各业提供基础设施服务。
他们的完整技术体系和基础设施构建能力,正在以开源和平台服务的方式向外界全面开放,不仅提供稳定、高效的AI基础服务体系,还将创建开放、繁荣的AI生态,借此希望为全社会打造坚实的AI底座,实现自身的升级,也顺应时代的大趋势。
阿里云也已经实实在在地获得了大模型带来的巨大收益。国内超过50%的头部大模型企业都跑在阿里云上。随着智能化时代的到来,AI将成为新的生产力,阿里的不同业务、不同场景都在试水大模型,用以提升产品体验与经营效率,打造新的增长引擎。
反过来说,大模型也在驱动着阿里云。周靖人就曾表示,“基于通义千问大模型,我们对云上产品也进行了AI化改造,超过30款云产品具备了大模型的能力,带来了开发效率的大幅提升。”这些信息也充分说明了,阿里云要打造AI时代最开放的云的原因。
如今,从底层算力到AI平台再到模型服务,阿里云正在持续加大研发投入,形成了三种新的打法,即基础设施、开源路线、开放平台,再加上IaaS层和PaaS层的迭代,这些都有利于聚拢客户、开发者和ISV,也有利于树立典型的标杆案例。
这些优势正在建造阿里云乃至阿里全新的增长飞轮。当国内的开源大模型“起风了”的时候,阿里云就是那个“风向标”。
AI算力底座、丰富且开源的产品、多元的应用场景、通过社区不断扩大的开发者规模、工具链及智能化平台、开放的创新生态……阿里云通过大模型开源,正在形成一条具有竞争力的“高质量开源基础大模型-大模型优化-AI应用创新”的商业化落地发展路径,这对于国内大模型产业应用的落地、创新有着非常重大的影响,势必推动国内大模型成熟应用的规模化出现。
就像中国工程院院士、阿里云创始人王坚所说,AI和云计算的结合,将带来云计算的第三次浪潮,大模型的开源和普惠,也将改变云计算的技术、产品和服务模式,云服务商未来的角色和定位,也会因大模型而产生变化。