出品 | 虎嗅科技组
作者 | 杜钰君
编辑 | 王一鹏
头图 | 视觉中国
是GPT-4的劲敌兼平替,也是微软部署的又一利器。这家人工智能初创公司用实力让众人惊呼“微软赢麻了”。
2月26日,总部位于巴黎的人工智能公司MistralAI发布尖端文本生成模型MistralLarge。该模型达到了顶级的推理能力,可用于复杂的多语言推理任务,包括文本理解、转换和代码生成。
同日,微软宣布与MistralAI建立多年合作伙伴关系,表示“MistralAI是先锋,它是一位创新者和开拓者。他们对培育开源社区和实现卓越性能的承诺与Microsoft开发值得信赖、可扩展且负责任的AI解决方案的承诺和谐一致”。
图1:Microsoft官网对双方合作的宣布
一、MistralAI的崛起之路
微软并不是第一家在MistralAI身上押注的巨头。
MistralAI于2023年5月正式注册成立,创始人是谷歌DeepMind和Meta的校友。仅仅成立几周后,2023年6月,MistralAI就获得了由LightspeedVenturePartners(光速创投)领投的1.05亿欧元(约合1.13亿美元)种子轮融资,使公司估值飙升至2.4亿欧元。仅半年后,MistralAI又获得了由AndreessenHorowitz(a16z)领投的3.85亿欧元(约合4.15亿美元)融资,英伟达、Salesforce、法国巴黎银行等多家知名机构跟投。而到了2024年2月,微软更是直接入股MistralAI。
从初创到被巨头青睐,MistralAI只用了短短几个月。
资金加持下,这个仅20名左右员工的公司频频展示自己的硬实力。
9月,Mistral7B发布,被称为当时“最强的70亿参数开源模型”。
紧接着,12月,MistralAI在无发布会、无宣传预热的情况下默默甩出一条磁力链接,发布了首个开源MoE大模型Mistral8x7B。87GB的种子、8x7B的MoE架构使得MistralAI的身价一路飙升,几天后估值便高达20亿美元,与初创时间相比翻了8倍。
图2:MistralAI的开源MoE大模型Mistral8x7B的磁力链接
而2月26日发布的MistralLarge,则直接叫板GPT-4,在MMLU(一个包含57个多选问答任务的英文评测数据集,是目前主流的LLM评测数据集)测试中的成绩仅次于GPT-4,成为世界上排名第二的可通过API普遍使用的模型。
图3:GPT-4、MistralLarge(预训练)、Claude2、GeminiPro1.0、GPT3.5和LLaMA270B在MMLU上的比较
MistralLarge具有新的功能和优势:
它的母语是流利的英语、法语、西班牙语、德语和意大利语,对语法和文化背景有细致入微的理解。
其32K标记上下文窗口允许从大型文档中精确调用信息。
其精确的指令遵循使开发人员能够设计他们的审核策略——我们用它来设置leChat的系统级审核。
它本身就能够进行函数调用。这与在laPlateforme上实施的受限输出模式一起,实现了大规模应用程序开发和技术堆栈现代化。
如今,MistralAI的估值已超过20亿欧元(约合156.2亿元人民币)。
二、GPT-4的“劲敌”与“平替”
根据MistralAI官网介绍,MistralLarge在知识推理、多语言能力、数学与编码等多方面的性能都直逼GPT-4,成为了GPT-4不容小觑的劲敌。
(一)推理和知识
MistralLarge展现出强大的推理能力。下图是MistralLarge预训练模型在标准基准上的性能。
图4:市场上领先的LLM模型在广泛常识、推理和知识基准上的表现:MMLU(测量理解中的大规模多任务语言)、HellaSwag(10-shot)、WinoGrande(5-shot)、ArcChallenge(5次)、ArcChallenge(25次)、TriviaQA(5次)和TruthfulQA。
(二)多语言能力
MistralLarge具有本地多语言能力。它在法语、德语、西班牙语和意大利语的HellaSwag、ArcChallenge和MMLU基准测试中明显优于LLaMA270B。
图5:MistralLarge、Mixtral8x7B和LLaMA270B在HellaSwag、ArcChallenge和MMLU上法语、德语、西班牙语和意大利语的比较
(三)数学与编码
MistralLarge在编码和数学任务中表现出顶尖的性能。在下表中,我们报告了一系列流行基准的性能,以评估一些顶级LLM模型的编码和数学性能。
图6:市场上领先的LLM模型在流行编码和数学基准上的性能:HumanEvalpass@1、MBPPpass@1、Mathmaj@4、GSM8Kmaj@8和GSM8Kmaj@1
在性能上叫板GPT-4的同时,MistralLarge的应用成本更为低廉。目前,查询MistralLarge的成本为每百万个输入代币8美元,每百万个输出代币24美元。在人工语言术语中,标记代表小块的单词——例如,当人工智能模型处理时,单词“TechCrunch”将被分成两个标记,“Tech”和“Crunch”。
默认情况下,MistralAI支持32k个标记的上下文窗口(通常超过20,000个英语单词)。作为比较,GPT-4Turbo具有128k代币上下文窗口,目前每百万个输入代币的成本为10美元,每百万个输出代币的成本为30美元。因此,MistralLarge目前比GPT-4Turbo便宜1.25倍,成为了GPT-4Turbo的“平替”。这对于使用量巨大的企业用户而言可以节省很大一笔开支。
图7:MistralLarge与GPT-4及其同源产品的成本比较
除了MistralLarge之外,这家初创公司还推出了自己的ChatGPT替代品,即LeChat的新服务。该聊天助手目前处于测试阶段。该公司还计划为企业客户推出LeChat的付费版本。除了集中计费之外,企业客户还能够定义审核机制。
不仅如此,MistralAI的商业模式看起来也越来越像OpenAI的商业模式。目前,该公司的模型不再像成立初时完全开源,而是通过付费API提供MistralLarge,并根据使用情况进行定价。MistralLarge可通过laPlatform获取,也可以在AzureAI上使用。其中,LaPlateforme这一接入点安全托管在欧洲的Mistral基础设施上,使开发人员能够在模型范围内创建应用程序和服务;同时该模型也可通过AzureAIStudio和Azure机器学习使用。
三、与微软的双向赋能
Mistral的先进模型资源将安放在微软云中,使其成为全球第二家在微软Azure上提供商业AI模型的公司。
MistralAI与微软的合作重点关注三个核心领域:
超级计算基础设施:微软将通过AzureAI超级计算基础设施来支持MistralAI,为MistralAI旗舰模型的AI训练和推理工作负载提供一流的性能和规模。
扩展到市场:微软和MistralAI将通过AzureAIStudio和Azure机器学习模型目录中的模型即服务(MaaS)向客户提供MistralAI的高级模型。除了OpenAI模型之外,模型目录还提供开源和商业模型的多种选择。用户可以使用MicrosoftAzure消费承诺(MACC)来购买MistralAI的模型。Azure的AI优化基础设施和企业级功能为MistralAI提供了向全球Microsoft客户推广、销售和分发其模型的额外机会。
人工智能研究和开发:微软和MistralAI将探索围绕为特定客户(包括欧洲公共部门工作负载)培训特定目的模型的合作。
对此,MistralAI首席执行官ArthurMensch表示,与微软的合作使MistralAI能够访问Azure,推动其创新研究和实际应用程序向世界各地的新客户发展,加速下一代大型语言模型(LLM)的开发和部署,为MistralAI提供了释放新商业机会、扩展到全球市场的机会,并促进持续的研究合作。
这不仅是MistralAI迈向商业化的重要一步,同时也是微软在AI领域深化布局的又一力证。对于微软而言,和MistralAI的开放合作伙伴关系策略是让Azure客户留在其产品生态系统中的好方法。此外,微软与OpenAI多年的关系已经吸引了美国和欧洲反垄断监管机构的审查,与MistralAI等大模型公司的合作无疑可以“分散火力”。当前,微软正积极探索在其云计算平台上与其他人工智能模型点合作可能。例如,Microsoft和Meta合作在Azure上提供Llama大型语言模型。
事实上,MistralAI的在研产品不止于MistralLarge。
MistralAI的模型产品主要分为MistralSmall、MistralLarge、MistralEmbed三类。其中,MistralSmall受益于与MistralLarge在RAG启用和函数调用方面相同的创新,主要提供针对低延迟工作负载的经济高效推理;MistralLarge主要用于处理高复杂性任务的顶级推理;MistralEmbed则主要用于提取文本摘录表中最先进的语义。