苹果的新AI，是如何“练”成的？

前言

Siri 终于变身“AI Siri”，万众期待的 Apple Intelligence 来了。

伴随 Apple Intelligence 上线 iOS 18、iPadOS 18 和 macOS Sequoia，苹果也发布了自家大模型的技术报告，公布了大量技术细节，十分受业界关注。

据介绍，Apple Intelligence 包含了多个高效能的生成模型，它们快速、高效，专为用户日常任务而设计，并能即时适应用户当前的活动。构建到 Apple Intelligence 中的基础模型已经为用户体验进行了优化，如写作和润色文本、优先级排序和汇总通知、为与家人和朋友的对话创建有趣的图片，以及采取应用内操作以简化跨应用交互。

在技术报告中，苹果团队详细介绍了其中两个模型——一个约 30 亿参数的语言模型 AFM（Apple Foundation Model），以及一个更大的、基于服务器的 AFM-server 语言模型——是如何构建和适配的，从而高效、准确地执行专业任务。

图｜AFM 的模型概况

这两个基础模型是苹果创建的更大生成模型家族的一部分，用于支持用户和开发者；这包括一个基于 AFM 语言模型的编程模型，用于构建 Xcode 中的智能；以及一个扩散模型，帮助用户在视觉上表达自己，如在信息应用中。

AFM的性能怎么样？

AFM 在开发过程中经历了严格的评估，评估结果表明，模型在预训练、后训练和特定任务上都表现出色，并符合苹果的核心价值观和负责任 AI 原则。

1. 预训练评估

苹果团队使用 HELM MMLU、HELMLite 和 OpenLLM 等公开评估基准，评估了 AFM 模型的语言理解和推理能力。结果显示，AFM 模型在多个评估指标上取得了优异的成绩，展现了强大的语言理解和推理能力，为后续的后训练和特定任务应用奠定了基础。

2. 后训练评估

苹果团队结合人类评估和自动评估基准，评估了 AFM 模型的通用能力和特定能力，比如指令遵循、工具使用和写作。评估结果如下：

图｜AFM 模型与其他开源模型和商业模型对比，人类评分者更喜欢 AFM 模型。

研究团队在神经元描述范式上评估 MAIA，研究显示，MAIA 在真实模型和合成神经元数据集上均取得了优异的描述效果，预测能力优于基线方法，并与人类专家相当。

图｜AFM 模型和相关模型的指令遵循能力比较，使用 IFEval 测量，值越高表示能力越好。

图｜AFM-server 达到了最佳的整体精度，优于 Gemini-1.5-Pro-Preview-0514 和 GPT-4。

图 | AFM 与一些最杰出的模型以及较小规模的开源模型进行比较。与Gemma-7B和Mistral-7B相比，AFM-on-device 可以实现相当或更好的性能。AFM-server 显著优于 dbrx - directive，与 GPT-3.5 和 GPT-4相当。

图｜研究团队比较了训练后 AFM 在数学基准上的表现，包括 GSM8K 和 math。AFM-on-device 的性能明显优于 Mistral-7B 和 Gemma-7B。

此外，研究团队还对模型进行了特定任务评估和安全性评估。他们使用人类评估和特定任务评估基准，评估 AFM 模型在特定任务上的表现，例如邮件摘要、消息摘要和通知摘要。根据评估结果，AFM 模型在邮件摘要、消息摘要、通知摘要方面的表现在多个方面优于其他模型，比如准确性、完整性和可读性。

在安全性方面，研究团队使用对抗性数据集和人类评估，评估 AFM 模型对有害内容和敏感话题的抵抗力。评估结果显示，AFM 模型对对抗性数据和敏感话题表现出了良好的抵抗力，在一定程度上避免了产生有害或不当的响应。

AFM是如何“练”成的

1. 架构

与大多主流模型一样，AFM 模型基于 Transformer 架构，但也采用了一些特定的设计选择来提高效率和性能。主要组成部分如下：

图｜AFM-on-device 具有 3072 个参数，适用于在设备上进行推理。它使用了 26 个 Transformer 层，每个层包含 128 个头，8 个查询/键头和 24 个查询头。

2. 预训练

AFM 模型的预训练过程旨在训练强大的语言模型，以支持 Apple Intelligence 系统的各种功能。AFM 模型使用 AXLearn 框架在 Cloud TPU 群上训练，该框架支持大规模模型和序列长度的训练，并提供了高效的训练和推理性能。

AFM 预训练数据集由多种类型的优质数据组成，包括：

AFM 预训练分为三个阶段：

3. 后训练

AFM 在预训练阶段获得了强大的语言理解能力，但为了将其应用于特定任务，比如邮件摘要、消息摘要和通知摘要，还需要进行后训练。包括：

后训练的优势：

4. 推理优化

AFM 不仅需要具备强大的语言理解能力，还需要能够高效地运行在 iPhone、iPad 和 Mac 等设备上，以及 Apple 硅服务器上的 Private Cloud Compute。为了实现这一目标，苹果开发了一系列优化技术，以确保 AFM 模型在特定任务上的高效运行，同时保持整体模型质量。

优化方法：

优化案例——邮件摘要：

此外，Apple Intelligence 遵循一系列负责任的 AI 原则，包括赋能用户、代表用户、谨慎设计、保护隐私等。在这篇技术报告中，苹果反驳了有关其采用道德上有问题的方法来训练某些模型的指控，重申它没有使用私人用户数据，而是将公开可用的数据和授权数据结合起来用于 Apple Intelligence。他们强调， AFM 模型的训练数据是以“负责任”的方式获取的。

更多详细内容，请查看技术报告：https://machinelearning.apple.com/papers/apple_intelligence_foundation_language_models.pdf

正文

苹果的新AI，是如何“练”成的？

相关阅读

谷歌也要“送 AI 进校园”：美国大学生可限时免费订阅 Google One AI Premium 计划

如何从经济学视角看待人工智能发展与治理？

智慧交通标准化试点项目推出

Linux 6.16 将迎 Asahi UAPI，苹果 M1 / M2 图形驱动支持迈进一步

目录[+]