性能媲美GPT-3.5，AI大模型能塞进手机了？

智东西4月24日报道，4月23日，微软在官网开源了小语言模型（SLM）——Phi-3-mini。这是微软Phi-3系列模型推出的首个模型。

Phi-3-mini作为微软Phi系列的第四代产品，以其38亿参数和3.3T tokens的庞大训练数据量，在语言、推理、编码和数学基准测试中超越了众多数百亿参数规模的模型。

此外，Phi-3-mini有4k和128k tokens两个上下文长度变体，经过预训练和指令调整，可以更好地理解人类的语言、表达、逻辑并执行不同类型的指令。

与大语言模型相比，Phi-3-mini模型操作更为简便。该模型的体积很小，这一特性使其可以在端侧部署和运行。据称，该模型可以作为聊天机器人离线访问，且具有不亚于GPT-3.5的性能。

Phi-3-mini的成本大幅降低。微软生成式AI研究副总裁塞巴斯蒂安·布贝克（Sébastien Bubeck）称，相比于其他相似功能的模型，Phi-3-mini成本可能只有十分之一。

据微软研究团队称，Phi-3-mini小体积、高性能的创新归功于由合成数据组成的数据集。该数据集由大量已过滤的网络数据和其他AI制作的儿童读物中的合成数据组成。

微软计划在未来几周内推出Phi-3系列的另外两个模型，分别是Phi-3-small（7B）和Phi-3-medium（14B）。

“小而美”的模型，Phi-3-mini优于两倍其尺寸模型

据微软官网称，Phi-3模型是目前能力最强、性价比最高的小型语言模型（SLM），其在多种语言、推理、编码和数学基准测试中均展现出超越同等规模甚至更大型模型的能力。

Phi-3-mini包含两种上下文长度的规模，分别是4k和128k tokens，其中128k tokens的上下文窗口支持在同类模型是首次实现，且对模型质量的影响微乎其微。此外，该模型经过指令微调，能够以自然语言方式响应和执行多种指令，确保了其即时可用性。

Phi-3模型在小尺寸上具有突破性的性能。根据微软研发团队的测试，Phi-3模型在基准测试中优于相同尺寸和更大尺寸的语言模型。其中，Phi-3-mini的性能优于其尺寸两倍的模型，而Phi-3-small和Phi-3-medium的性能优于更大的模型，包括GPT-3.5 Turbo。

根据性能对照表，Phi-3-mini的两个变体于基准测试的19个对比项中，有17项胜过Gemma-7b模型，18项胜过Mistral-7b模型，11项胜过Llama-3-8B模型。但也有11项次于GPT3.5-Turbo模型，17项次于Claude-3 Sonnet模型。

Phi-3系列基准测试对照表（图源：微软）

此外，微软还在学术报告中称，Phi-3模型的整体性能可以与Mixtral 8x7B和GPT-3.5等模型相媲美。

Phi系列模型的起源于微软研究部门，已经被广泛使用，其中Phi-2下载量超过200万次。从用于Python编码的Phi-1开始，到增强推理和理解的Phi-1.5，再到27亿参数的Phi-2，Phi系列在语言理解方面超越了其25倍参数大小的模型。

微软计划在未来几周内推出Phi-3系列的另外两个模型，分别是Phi-3-small（7B）和Phi-3-medium（14B），旨在为Azure AI和其他模型库提供更灵活的选择。

Phi-3遵循安全和高质，Phi-3-mini为多个平台专门优化

Phi-3模型的设计遵循了微软的“负责任AI标准”，包括问责制、透明度、公平性、可靠性与安全性、隐私与安全和包容性。Phi-3模型经历了严格的安全度量和评估、红队测试、敏感用途审查，并遵循安全指南，以确保这些模型在开发、测试和部署过程中都符合微软的标准和最佳实践。

Phi-3模型在训练过程中采用了高质量的数据，这是基于先前的Phi模型工作的延续。它们还通过了广泛的安全后训练，包括从人类反馈中进行的强化学习（RLHF）、在数十个伤害类别上进行的自动测试和手动红队测试。

此外，Phi-3-mini在Azure AI上配备了一套完整的部署、评估和微调工具链，并通过Ollama平台使开发者能够在本地笔记本电脑上运行。模型还针对ONNX Runtime进行了优化，支持Windows DirectML，并且实现了跨平台支持，包括GPU、CPU和移动硬件。

同时，Phi-3-mini也作为英伟达推理微服务（NVIDIA NIM）提供，具备可广泛部署的标准API接口，并对英伟达GPU进行了专门优化。

Phi-3提供离线推理场景，AI解决方案已落地印度

微软公司通过提供Copilots帮助客户用生成式AI进行业务转型。他们认为，不同任务对质量成本曲线上不同规模模型的需求正日益增长。

小语言模型，如Phi-3，特别适用于以下情况：资源受限的环境，包括设备上和离线推理场景；延迟约束的场景，快速响应时间至关重要；以及成本受限的用例，特别是那些具有较简单任务的用例。

由于尺寸较小，Phi-3模型可以在计算受限的推理环境中使用，特别是Phi-3-mini可以在端侧使用。Phi-3模型的较小尺寸还使得微调或定制变得更加容易和更具成本效益。此外，较低的计算需求使其成本更低，延迟更好。较长的上下文窗口使其能够处理和推理大量的文本内容，如文档、网页、代码等。

微软的一些客户已经开始使用Phi-3构建解决方案。比如农业领域，Phi-3模型为农民提供了更便捷、更经济的解决方案，并帮助他们在没有稳定互联网连接的情况下使用AI技术。

印度一家领先的商业集团ITC正在将Phi-3模型用于Krishi Mitra（一款面向农民的应用程序）内，帮助印度农民通过技术手段获得更好的农业解决方案。据悉，该应用已经覆盖了超过一百万名农民。

结语：大小模型相辅相成，离线AI聊天已成现实

微软的Phi-3模型设计的初衷旨在兼容多种设备。Phi-3与Stability AI的Zephyr、谷歌的Gemini Nano和Anthropic的Claude 3 Haiku等小型模型一样，能够在端侧运行，而无需依赖互联网连接。

尽管云端大模型在性能上全面超越小模型，但它们也存在一些局限性，包括较高的成本、运行速度以及对互联网连接的依赖。相比之下，Phi-3允许用户在没有网络的情况下与虚拟助手进行互动，能够在不上传数据的前提下实现内容总结，解决了AI领域的一部分弊端。

未来这类模型有望与智能手机集成，甚至可能内置于常用家电中，为用户的生活提供个性化建议。我们期待AI变得越来越生活化，也期待小语言模型在未来的进步。