DeepSeek R1模型：AI训练新思路与个人学习的启示-AITOP100,AI资讯

大家好，我是很帅的狐狸

最近，DeepSeek的R1模型成为了科技圈的热门话题。该模型以极低的成本实现了与OpenAI顶级推理模型o1相媲美的性能，这让市场开始重新评估AI训练的成本，甚至影响了英伟达的股价。

截图/

然而，真正吸引我的是它的训练方法，它为我个人学习提供了宝贵的启示。R1模型不同于常见的文本润色模型，它具备强大的推理能力，与OpenAI的o1类似，可以通过增加「思维链」（类似自言自语的推理过程）来提高答案的质量，尤其在解决理工科问题时表现出色。

截图/

传统上，大语言模型通过SFT（监督微调）获得推理能力，这类似于学生刷题，通过大量学习思维链的范例来掌握解题技巧。

但DeepSeek在训练R1-Zero（R1的早期版本）时，创新性地采用了RL（强化学习）。这种方式更贴近婴儿的学习过程，通过与环境的互动，获得反馈并逐步掌握知识。

例如，当教婴儿识别颜色时，如果她说对了颜色，你会给予肯定，说错了则会给予纠正，通过反复的反馈，她会逐步理解颜色的概念，并能正确识别。

过去，强化学习常用于复杂的游戏策略等开放式任务，因为AI在没有“标准答案”的情况下，往往能提出创造性的解决方案。就像2016年AlphaGo对战李世石时下的“第37手”，让职业棋手都惊叹不已。

截图/

正是这种没有“标准答案”的限制，激发了创造力。我们可以用表格来对比这两种训练方法：

这对我们有什么启发呢？

从小接受应试教育的我们，可能很难再像一张白纸那样进行强化学习，但在完全不熟悉的领域，我们仍然可以尝试这种方法。我在麦肯锡工作期间的经验证明，不同行业之间存在着巨大的认知差异，在金融领域司空见惯的做法，在其他行业往往会被视为创新。

很多创业成功案例也印证了这一点，那些来自行业外的人，往往能提出“反常识”的创新。像马斯克在没有火箭经验的情况下，却坚持研发火箭回收计划，就是最好的例子。

即使无法轻易转行，我们也应该积极跨领域学习，汲取其他行业的经验，将其应用于本领域。我推荐一个简单的训练方法：每天抽出1-2小时，在散步时，选择一个从未深入思考的问题进行思考。这与我之前“解题者”系列文章的思路相似，例如从财务角度思考人际关系、用营销学做个人品牌等。

DeepSeek的论文还揭示了更有趣的发现。通过强化学习训练出的R1-Zero虽然推理能力强，但存在中英文混杂、表达不流畅等问题，就像一个自学成才的天才，虽然有独特见解，但缺乏系统的表达训练。为了解决这个问题，DeepSeek向R1提供了“冷启动数据”，类似于引导，最终诞生了表达流畅的R1模型。

这也与我的育儿体验相似，我的女儿在双语环境下长大，最初也存在中英文混杂的情况，但通过观察大人的对话，她现在逐渐能分别用不同的语言和不同的人交流。