
当初 OpenAI 抛出 Sora 大饼,一时间 Open Sora 项目热火朝天。
现在,这股 Open 的风也是反向吹起来了,最新目标,正是国产大模型 DeepSeek-R1。
Open R1 项目由 HuggingFace 发起,联合创始人兼 CEO Clem Delangue 是这么说的:
HuggingFace 振臂一呼,立刻欢呼者众。项目上线仅 1 天,就在 GitHub 上刷下 1.9k 标星。
看来这一波,DeepSeek-R1 真是给全球大模型圈带来了不小的震撼,并且影响还在持续。
Open R1
不过话说回来,DeepSeek-R1 本身就是开源的,HuggingFace 搞这么个“Open R1”项目,又是为何?
官方在项目页中做了解释:
HuggingFace 表示,将以 DeepSeek-R1 的技术报告为指导,分 3 个步骤完成这个项目:
结合 DeepSeek 的官方技术报告来看,也就是说,Open R1 项目首先要实现的,是用 R1 数据蒸馏小模型,看看效果是不是像 DeepSeek 说的那么好:
DeepSeek 开源了 6 个用 R1 蒸馏的小模型,其中蒸馏版 Qwen-1.5 甚至能在部分任务上超过 GPT-4o。
接下来,就是按照 DeepSeek 所说,不用 SFT,纯靠 RL 调教出 R1-Zero,再在 R1-Zero 的基础上复刻出性能逼近 o1 的 R1 模型。
其中多阶段训练是指,R1 技术报告提到,DeepSeek-R1 训练过程中引入了一个多阶段训练流程,具体包括以下 4 个阶段:
用数千个长思维链(CoT)样本对基础模型进行监督微调(SFT),为模型提供初始的推理能力
在第一个 SFT 阶段的基础之上,用和训练 R1-Zero 相同的大规模强化学习方法,进一步提升模型的推理能力,特别是应对编程、数学、科学和逻辑推理任务的能力。
再次使用监督微调,提升模型的非推理能力,如事实知识、对话能力等。
这次强化学习的重点是让模型行为与人类偏好保持一致,提升模型的可用性和安全性。
目前,在 GitHub 仓库中,已经可以看到这几个文件:
阿尔特曼坐不住了
有意思的是,R1 刷屏之中,阿尔特曼也坐不住了。
这不,他又带来了 o3-mini 的最新剧透:
这话一出,𝕏的空气中充满了快乐的气息(doge):
参考链接:
本文来自微信公众号:量子位(ID:QbitAI),作者:鱼羊