大家好,我是很帅的狐狸
最近,DeepSeek的R1模型成为了科技圈的热门话题。该模型以极低的成本实现了与OpenAI顶级推理模型o1相媲美的性能,这让市场开始重新评估AI训练的成本,甚至影响了英伟达的股价。
截图/
然而,真正吸引我的是它的训练方法,它为我个人学习提供了宝贵的启示。R1模型不同于常见的文本润色模型,它具备强大的推理能力,与OpenAI的o1类似,可以通过增加「思维链」(类似自言自语的推理过程)来提高答案的质量,尤其在解决理工科问题时表现出色。
截图/
传统上,大语言模型通过SFT(监督微调)获得推理能力,这类似于学生刷题,通过大量学习思维链的范例来掌握解题技巧。
但DeepSeek在训练R1-Zero(R1的早期版本)时,创新性地采用了RL(强化学习)。这种方式更贴近婴儿的学习过程,通过与环境的互动,获得反馈并逐步掌握知识。
例如,当教婴儿识别颜色时,如果她说对了颜色,你会给予肯定,说错了则会给予纠正,通过反复的反馈,她会逐步理解颜色的概念,并能正确识别。
过去,强化学习常用于复杂的游戏策略等开放式任务,因为AI在没有“标准答案”的情况下,往往能提出创造性的解决方案。 就像2016年AlphaGo对战李世石时下的“第37手”,让职业棋手都惊叹不已。
截图/
正是这种没有“标准答案”的限制,激发了创造力。我们可以用表格来对比这两种训练方法:
这对我们有什么启发呢?
从小接受应试教育的我们,可能很难再像一张白纸那样进行强化学习,但在完全不熟悉的领域,我们仍然可以尝试这种方法。 我在麦肯锡工作期间的经验证明,不同行业之间存在着巨大的认知差异,在金融领域司空见惯的做法,在其他行业往往会被视为创新。
很多创业成功案例也印证了这一点,那些来自行业外的人,往往能提出“反常识”的创新。 像马斯克在没有火箭经验的情况下,却坚持研发火箭回收计划,就是最好的例子。
即使无法轻易转行,我们也应该积极跨领域学习, 汲取其他行业的经验, 将其应用于本领域。 我推荐一个简单的训练方法:每天抽出1-2小时,在散步时,选择一个从未深入思考的问题进行思考。这与我之前“解题者”系列文章的思路相似,例如从财务角度思考人际关系、用营销学做个人品牌等。
DeepSeek的论文还揭示了更有趣的发现。 通过强化学习训练出的R1-Zero虽然推理能力强,但存在中英文混杂、表达不流畅等问题,就像一个自学成才的天才,虽然有独特见解,但缺乏系统的表达训练。为了解决这个问题,DeepSeek向R1提供了“冷启动数据”,类似于引导,最终诞生了表达流畅的R1模型。
这也与我的育儿体验相似,我的女儿在双语环境下长大,最初也存在中英文混杂的情况,但通过观察大人的对话,她现在逐渐能分别用不同的语言和不同的人交流。
这也引发了我对人是否也是高维生命训练的AI的思考。 比如Spore项目,它让AI智能体自己发推、发币,甚至繁衍后代,试图模拟生命进化过程。
截图/
最后,我整理了一些之前分享过的跨界思考文章:
从财务角度思考人际关系
《和父母越来越疏远,是我错了吗?》
跟餐饮行业的人学投资
《一瓶12万的红酒,为什么是餐桌上最划算的投资?》
用营销学做个人品牌
《职场中,「聪明」和「优秀」是最没用的个人标签》
从投资的角度聊健身
《为什么坚持健身那么难?》
用财务的角度看亲密关系
《和父母越来越疏远,是我错了吗?》
用决策科学来择偶
《如何克服“选择恐惧症”?》
本文来自微信公众号“狐狸君raphael”(ID:shuai_investor),作者:很帅的狐狸,36氪经授权发布。