
今天起,DeepSeek每天开放一个代码库,连发5天,展示其“完全透明”的诚意。
它已经建立了一个github库。[1]
“开源周”将很快开始,已经放了一篇发表于2024年8月的论文,关于幻方萤火的,介绍了DeepSeek高效的万卡算力集群框架,《Fire-Flyer AI-HPC:一种用于深度学习的经济高效的软硬件协同设计》。
“开源周”将硬刚可能于本周发布的GPT-4.5,也会在Llama 4开始发布之前,建立一个更高的开源标准。
DeepSeek已经引领了开源的浪潮,它在MIT许可协议下开放,完全公布了权重,开发者可以访问的这些底层数据,表示模型数十亿个模拟神经元之间连接强度,只要加上更多的训练数据,就能微调这些模型参数,实现更有针对性的用途。
相比Llama,DeepSeek更加开源。虽然llama 3.1在披露部分数据来源和发布部分源代码方面取得了一些进展,但其开放性仍不及DeepSeek,其全面文档、宽松的许可和完全开源的方法为AI社区的透明度设定了更高的标准。
按照Open Source Initiative对于开源模型的定义,应该包括数据、代码和权重。根据OSI的说法,真正开放的人工智能还必须包含“有关用于训练系统的数据的足够详细信息,以便技术人员可以构建基本等效的系统”。
业内猜测DeepSeek计划的开源版本,是否还会包括团队在训练模型时使用的代码,这是满足OSI对“开源人工智能”的正式定义的必要条件。
完全开源版本(包括训练代码)可以让研究人员更深入地了解模型的核心工作原理,从而有可能揭示模型架构(而非参数权重)固有的偏差或局限性。完整源代码版本还可以让从头开始重现模型变得更加容易,必要时可能使用全新的训练数据。
OSI于2024年发布了开源AI定义1.0版本。按照这个版本,OSI认为Meta发布的Llama系列模型,并不符合开源AI的标准。它指出最新版本的Llama 3.1:
DeepSeek表示,这次准备公布一些构建模块,都经过记录、部署和验证过。将完全透明地分享“我们的微小但真诚的进展”。
Google的Gemma、Meta的Llama以及GPT2等较早的OpenAI版本在内的主要模型,都已开放权重并自称为开源AI。这些模型还经常发布开源代码,包括响应查询时运行的推理时间指令。
马斯克的xAI于去年3月发布了Grok 1推理时间代码的开源版本,并最近承诺在未来几周内发布Grok 2的开源版本。
OpenAI也在内部讨论其开源策略,包括正在考虑将o3 mini开源。预计每家闭源前沿大模型都将会采取某种开源的策略。目前比较可行的是保持其前沿闭源模型的同时,上一代的模型开源,或者结合一定的应用场景开源,如发布开源的、端侧部署的小模型。
[1] https://github.com/deepseek-ai/open-infra-index?tab=readme-ov-file。