非技术人10分钟读懂Deepseek R1

DeepSeek 在这个春节火到没边。　

不仅在公众号、小红书、抖音疯狂刷屏，就连过年餐桌上七大姑八大姨都会来找我唠上两句：“你知道滴噗系可（DeepSeek）吗”。　

抛开看热闹的浮躁气，我想从一个非技术人的角度，分享近期对 DeepSeek 的研究总结，主要围绕以下话题：　

天才养成记：DeepSeek R1 为什么如此聪明？

就我观察而言，大多数人讨论的 DeepSeek ，基本指的是它的深度思考版本——DeepSeek R1。　

DeepSeek R1 不同于先前的普通模型（如ChatGPT-4、Claude 3.5 sonnet、豆包、通义等），它与 OpenAI 现在最先进的模型 o1、o3 一样，同属于一条技术路线：基于强化学习 RL 的推理（Reasoning）模型。　

其标志性表现就是，在回答用户问题前，R1 会先进行“自问自答”式的推理思考，凭此提升最终回答的质量。　

这种“自问自答”，并非简单的自言自语，而是 AI 在模拟人类的深度思考。　

从用户初始问题“先有鸡还是先有蛋”出发，AI 唤醒解决该问题所需的推理逻辑与知识，对问题进行多步推导，为最终回答提供更加完备的思考准备。　

这种能力，并非凭空而来。　

如果把 AI 比作人类，那么 DeepSeek R1 的“聪明”，源于其背后独特的“教育方式”。

在许多其他的 AI 模型还在接受“填鸭式教育”时，DeepSeek R1 已经率先进入了“自学成才”的新阶段。　

“填鸭教育”之困：人类的局限，AI 的上限

当前 AI 大模型的训练分为两个阶段：“预训练”、“后训练”。　

“预训练”阶段，主要依赖于海量的“预训练”数据，一股脑地把各种知识“填鸭”给 AI。　

这便是大模型“预训练”的实质与局限：　

它赋予了 AI 海量的知识基础，却无法让 AI 真正理解和运用这些知识，只能基于背过知识的统计概率进行“续写”。　

更关键的在于，此时的 AI 还没有学会如何与人类进行有效的对话，不知道如何理解你的问题，也不知道如何组织语言来回答你。　

它就像一个“知识巨人，对话侏儒”，空有全世界的知识，却不知如何表达。（是的，未经“后训练”的基础模型，往往用户指令遵循性差，生成内容的格式混乱、难以阅读、逻辑断裂，也无法和人进行有效对话。）　

而在“后训练”阶段，则是对 AI 的输出方式、指令遵循、推理等特定任务进行“特训”。　

例如，让 AI 学会与人类对话，生成人类易于阅读的长句，或者学会输出更加合理的推理过程。　

此前，“后训练”主要采用监督微调（SFT）或基于人类反馈的强化学习（RLHF）等方法。　

例如，让孩子额外加背宋词三百首，以应付明天的“唐诗+宋词”的综合性考试；或者反复强调“出门 → 要关灯”，机械训练节约用电的好习惯。　

例如，小学生解答数学题时，老师会限制他们使用“代数方程”这类超纲解法，因为不符合小学教育测验的预期。　

这种方式的局限在于，AI 受限于人类训练者的认知局限与主观偏好，终究还是限制了模型自主探索最优解的能力。　

可见，无论是 SFT 还是 RLHF，都难以摆脱“填鸭式教育”的影子。　

它们或许能让 AI “鹦鹉学舌”，却无法让 AI “融会贯通”。人类标注者的认知天花板，也成为了 AI 能力提升的瓶颈。　

自学成才：纯强化学习再次带来 AI 超越人类的希望

而DeepSeek R1 则引入了纯强化学习（RL），不依赖大量的人类标注数据，而是让 AI 通过自我探索和试错来学习：　

DeepSeek R1 在“冷启动”阶段，仅通过少量（数千条）人工精选的思维链数据进行初步引导，建立起符合人类阅读习惯的推理表达范式。　

随后，便主要依靠强化学习，在奖励系统的反馈下（只对结果准确率与回答格式进行奖励），自主探索推理策略，不断提升回答的准确性，实现自我进化。　

正如 Alpha Zero 只训练了三天，就以 100 比 0 的战绩完胜 Alpha Go Lee（战胜李世石的版本）。　

大模型 AI 在纯强化学习（RL）下同样也展现出了超出人类研究员想象的成长潜力：　

“我们只需要简单地为其提供正确的激励措施，它就会自主开发高级的问题解决策略，RL 有可能解锁新的人工智能水平。”　

*只不过 Alpha Zero 的强化学习更加专精棋类。而 DeepSeek R1 在训练中，更注重学习推理的底层策略，培养通用推理能力，使其能够实现跨领域的知识迁移运用和推理解答。　

更有趣的是，DeepSeek 还有一个更加聪明的 R1-zero 实验版本

这个版本甚至没有进行任何的初始引导，而是采用了完全从零开始的强化学习。　

实验表明，无需任何人类的监督训练，R1-zero自然而然地学会了用更多的思考步骤来解决推理任务，还学会了在推理过程中反思先前的推理步骤，探索解决问题的替代方法。　

没错，AI 在纯强化学习中，自发涌现出了更强的推理能力与顿悟时刻：　

*但因为没有微调，R1-zero 的输出内容可读性差、语言混合，且风险不可控。所以我们见到的才是经过符合人类阅读偏好的冷启动与微调过的 R1 版本，确保 AI 生成内容的稳定、安全、道德、无害。　

纯强化学习，在 Alpha Zero 完胜所有人类棋手之后，再次点燃了 AI 全面超越人类的希望。　

当 AI 挣脱人类经验的束缚，真正的智能革命或许才刚刚拉开序幕。　

附：DeepSeek R1 完整训练过程

因文章定位与行文节奏设计，上文仅对影响 R1 涌现关键智能的前两个训练步骤进行了讲解。　

更加完善的训练说明，可直接阅读官方论文：　

DeepSeek-AI《DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning》https://arxiv.org/html/2501.12948

Ref：

DeepSeek-AI《DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning》https://arxiv.org/html/2501.12948

碎瓜-波斯兔子《Deepseek R1可能找到了超越人类的办法》https://mp.weixin.qq.com/s/YgRgDw8ndSHJwcPNMqWZNQ

大聪明-赛博禅心《DeepSeek R1 是怎么训练的？》https://mp.weixin.qq.com/s/Wuz0H9jmZYV1jM1Y-twTlA

老刘说 NLP 《可视化角度具象化理解DeepSeek-R1类推理大模型的习得进程》https://mp.weixin.qq.com/s/ytKTGTgU2T7jSNrBghX1cA

Tianzhe Chu et al.《SFT 记忆，RL 泛化：基础模型训练后的比较研究》https://arxiv.org/html/2501.17161

Metaso 长思考对话《RL 和 SFT 在后训练中的区别》https://metaso.cn/s/WGdOwPC

正文

非技术人10分钟读懂Deepseek R1

相关阅读

哥伦比亚大学两位退学生打造“AI 面试作弊神器”，拿下 500 万美元融资

Reachy2机器人发布：互动自然，售价 7万美元

Adobe 为 Photoshop 和 Premiere Pro 开发 AI 代理，提供编辑建议并自动执行操作

AI烧钱加速、开源模型变现难，Meta寻求亚马逊、微软资助

目录[+]