鞭牛士报道,4月25日消息,据外电报道,苹果今天发布了几个开源大型语言模型 (LLM),这些模型旨在在设备上运行,而不是通过云服务器运行,称为 OpenELM(开源高效语言模型),可在Hugging Face Hub(一个共享 AI 代码的社区)上获取。
正如白皮书 [ PDF ] 中所述,共有八个 OpenELM 模型,其中四个是使用 CoreNet 库进行预训练的,另外四个是指令调整模型。 苹果采用分层缩放策略,旨在提高准确性和效率。
苹果提供了代码、训练日志和多个版本,而不仅仅是最终的训练模型,该项目背后的研究人员希望它能够在自然语言人工智能领域带来更快的进展和更值得信赖的结果。
OpenELM,一种最先进的开放语言模型。
OpenELM 使用分层缩放策略来有效地分配变压器模型每一层内的参数,从而提高准确性。例如,在参数预算约为 10 亿个参数的情况下,OpenELM 与 OLMo 相比,精度提高了 2.36%,同时需要的预训练令牌减少了 2 倍。
与之前仅提供模型权重和推理代码以及在私有数据集上进行预训练的做法不同,版本包括在公开数据集上训练和评估语言模型的完整框架,包括训练日志、多个检查点和预训练。训练配置。
苹果表示,它正在发布 OpenELM 模型,以通过最先进的语言模型增强和丰富开放研究社区。共享开源模型为研究人员提供了一种调查风险、数据和模型偏差的方法。开发人员和公司可以按原样使用模型或进行修改。
公开共享信息已成为苹果公司招募顶尖工程师、科学家和专家的重要工具,因为它为发表研究论文提供了机会,而这些论文在苹果公司的保密政策下通常无法发表。
苹果尚未将此类人工智能功能引入其设备,但iOS 18预计将包含许多新的人工智能功能,并且有传言称苹果正计划出于隐私目的在设备上运行其大型语言模型。