DeepSeek-R1:神秘面纱下的AI新力量
DeepSeek-R1的出现如同平地惊雷,迅速点燃了全球人工智能领域的热情。然而,关于DeepSeek的详实信息却相对匮乏。为了更深入地了解这股新兴力量,拾象创始人兼CEO李广密于2025年1月26日组织了一场关于DeepSeek的闭门讨论会。与会者包括数十位顶尖AI研究员、投资人以及一线AI从业者,他们围绕DeepSeek的技术细节、组织文化及其在中短长期可能产生的影响进行了深入探讨和学习。此次讨论旨在揭开这股“神秘东方力量”的冰山一角。
值得强调的是,本次讨论为民间技术交流,不代表任何个人或机构的官方立场。正如硅谷知名风投家Marc Andreessen所言,DeepSeek-R1作为开源项目,是对世界的巨大贡献。秉持同样的开源精神,与会者决定将闭门会议的集体思考公之于众。
以下为本次讨论会的要点总结,由拾象团队整理,并由作者进行了少量编辑。
01 神秘的DeepSeek:推动智能是核心
1. DeepSeek的灵魂人物是创始人兼CEO梁文锋,他是一位技术型领导者,与Sam Altman的风格截然不同。
2. DeepSeek之所以能获得良好声誉,在于其率先发布了MoE、o1等复现成果,抢占了先机。然而,要做到极致仍有很大空间。未来的挑战在于资源有限,需要将有限的资源投入到最关键的领域。团队的研发实力和文化都非常出色,若能获得更多算力资源,有望取得更大突破。
3. 从预览版到正式发布,DeepSeek的长文本处理能力提升迅速,其10K长上下文的实现采用的是常规方法。
4. 有传言称DeepSeek拥有5万张GPU卡,但实际数量应该远低于此。根据公开信息,DeepSeek可能拥有1万张旧款A100卡和约3000张禁令前的H800卡。DeepSeek非常注重合规,未采购任何违规GPU,因此算力资源相对有限。与美国的粗放式GPU使用方式不同,DeepSeek更加注重效率。
5. DeepSeek将所有精力都集中在一个狭窄的领域,放弃了多模态等其他方向,专注于智能本身。这或许是其成功的关键因素。
6. 从某种意义上来说,量化可能是DeepSeek的商业模式。幻方(梁文锋创立的量化投资公司)是上一代机器学习的成果。DeepSeek最重要的目标是推动智能发展,盈利和商业化并非首要考虑。中国需要一批领先的AI实验室来探索超越OpenAI的路径。人工智能发展是一个长期过程,今年将出现分化,必然会有新的突破。
7. 从技术层面而言,DeepSeek作为“黄埔军校”对人才的培养和扩散具有重要意义。
8. 美国的AI实验室也面临商业模式难题,AI在当下确实缺乏良好的商业化路径,未来需要进一步探索。梁文锋拥有远大的抱负,DeepSeek不在意形式,将朝着AGI(通用人工智能)的目标前进。
9. DeepSeek的论文表明,其技术侧重于节约硬件成本。在几个主要的扩展方向上,DeepSeek的技术能够有效降低成本。
10. 从长远来看,这不会对算力产生影响,但短期内,大家会思考如何更高效地利用AI。市场对算力的需求依然强劲,各家都面临算力不足的挑战。
11. 关于DeepSeek的组织文化:
1) 投资通常选择顶尖人才组合,而DeepSeek则侧重于国内高校毕业的优秀年轻人,通过团队磨合来提升能力。挖走个别人才可能不会对DeepSeek的优势组合产生太大影响。
2) 市场上资金充裕,但DeepSeek的核心竞争力在于其组织文化。DeepSeek与字节跳动的研发文化相似,追求本质。衡量文化好坏的标准在于是否有足够的资金和长期性,而这依赖于良好的商业模式。这两家公司的商业模式都非常出色。
12. DeepSeek为何能快速追赶?
1) 推理模型需要更高质量的数据和训练。从零开始追赶闭源模型在长文本和多模态方面更困难,而纯推理模型的架构变化不大,因此更容易追赶。
2) R1能够快速追赶的原因在于任务难度相对较低。强化学习只是使模型的选择更加准确。R1并未突破Consensus 32的效率,只是将并行探索改为串行,提高了效率,但并未提升智能的边界。
02 探索者VS追赶者:AI的阶跃式发展
13. AI发展类似于阶跃函数,后发追赶者的算力需求可以减少10倍。追赶者的算力成本并不高,但探索者需要训练大量模型,对新算法和架构的探索不会停止。阶跃式发展背后是大量投入的结果,算力投入将持续增加,并且许多人会投资于产品开发。除了推理,其他方向也需要消耗大量算力。探索者可能需要投入大量资源,但这对于下一个阶跃式发展至关重要,许多人并不满足于当前的架构和强化学习方法,会不断推进技术发展。
14. 在探索方向时,1万张卡的效果不一定优于1千张卡,但会存在一个门槛,如果只有100张卡,迭代方案的时间会过长。
15. 物理学的发展由学术研究人员和产业界实验室共同推动。前者关注多方向探索,不追求短期回报;后者更注重效率提升。
16. 从探索者和追赶者的角度来看,小公司由于算力有限,需要考虑效率。大公司更注重快速获取模型,在2千卡集群上有效的方法在万卡集群上可能不适用,因此大公司更关注稳定性。
17. CUDA生态的优势在于算子的多样性和全面性。国内公司在突破时,选择了常用的算子,具有后发优势。如果有10万张卡,在决定资源投入时,领先者的成本较高,追赶者的效率更高,如何选择至关重要。国内下一个追赶的方向是什么?例如多模态,因为海外的GPT-5迟迟没有发布。
03 技术细节1:SFT:推理层面无需SFT
18. DeepSeek带来的最大震撼不是开源或低成本,而是无需进行SFT(有监督微调)。但这仅限于推理层面,其他任务可能仍需SFT。这引发了一个值得探讨的问题:是否出现了新的范式或架构,使训练模型的数据利用效率更高,模型迭代速度更快?
19. DeepSeek-R1在某种程度上证明了使用SFT进行蒸馏的优势。DeepSeek-R1并非完全不做SFT,而是在第三阶段才进行SFT,最后一步alignment(对齐)使用RLHF(基于人类反馈的强化学习)。
20. R1本质上是通过SFT训练出来的,特殊之处在于使用RLHF训练出的模型生成数据。这表明,只要有足够好的方法,只需使用SFT蒸馏即可,无需复杂方法。
21. GRPO的关键在于基础模型足够智能,一个prompt生成需要16次尝试,才能大概率得到正确答案。出色的基础模型加上验证机制是R1的核心思路。数学和编程任务很适合这种方法,因为答案易于验证。理论上,可以在其他场景中使用类似流程,最终实现通用RL模型。
22. R1-Zero在没有SFT的情况下出现了CoT(思维链)过程,CoT会越来越长,这种涌现过程具有重要意义。SFT更像是一种辅助手段,即使没有SFT模型也能产生CoT,有了SFT可以更快生成。
23. 这表明,许多小型模型厂商可以通过SFT蒸馏大型模型,并且效果良好。但SFT并未在R1的过程中被完全抛弃。
24. 一个拥有无限长CoT的LLM理论上可以看作一台图灵机,通过无限长的CoT可以解决极其复杂的计算问题。CoT本质上是中间搜索结果,通过优化方式不断采样潜在输出,可能输出正确结果,并引导模型向更可靠的方向推理。为了得到这样的结果,模型必须进行计算,而CoT是计算过程中的中间输出,最终结果可以看作涌现,也可以说是模型作为计算机的本质。
25. 虽然DeepSeek的论文中没有提及长上下文,但从体感上来看,R1-preview和R1之间的模型上下文窗口得到了很大提升。猜测可能进行了Long2Short CoT的优化,包括第三阶段的SFT使用了CoT,最终在生成时被移除。最终版本可能使用了更清晰的CoT数据进行SFT。
26. SFT的数据类型有多种:一种是冷启动数据,类似于为模型提供良好的策略和初始化,使其更好地进行探索。强化学习的一个优化目标是与原始策略更接近。另一种数据是进行RL后生成的大量数据,再加上其他数据,再次对基础模型进行SFT。本质上,每个领域都有自己的数据处理流程,这些数据能力来源于基础模型,蒸馏是无损的,将多个领域的数据组合在一起可以提高泛化能力。
27. 目前尚不确定R1的数据效率如何。推测OpenAI可能也针对数据效率进行了类似的工作,例如微调。R1的第三阶段没有使用RL训练的模型作为基础模型,而是生成了数据,再通过SFT得到R1。数据包含600K的推理数据和200K的非推理数据。第二阶段的模型在示例领域之外的需要推理的场景下,可能也能够展示解题能力,从而得到推理数据。而非推理数据是V3 SFT数据的一部分,使V3能够补全CoT。800K的数据量较小,但效率很高。
04 技术细节2:数据:DeepSeek重视数据标注
28. Scale.AI未来不一定会失败。现在需要在各个领域进行RL,常用的领域是数学和编程,仍然需要专家进行标注。数据标注可能会更加复杂,但市场需求依然存在。
29. 在训练方面,多模态数据几乎看不到效果,或者说成本过高。目前没有任何证据表明其有效,但未来机会可能较大。
30. DeepSeek非常重视数据标注,据说梁文锋自己也会进行标签工作。在AI领域,除了算法和技巧,数据的精确性也至关重要。特斯拉的标注成本几乎是中国自动驾驶公司的20倍。中国自动驾驶的数据经历了从大而全、精细化到最终需要寻找驾驶经验和能力特别丰富的人的过程,而这正是特斯拉一开始就在做的事情。特斯拉机器人的动作标注人员是小脑非常健康的人,因此动作非常流畅,而中国标注人员的流畅度较差。因此,DeepSeek在数据标注方面的投入是模型效率高的关键因素之一。
05 技术细节3:蒸馏:模型多样性下降是坏处
31. 如果不了解模型训练中最大的技术痛点,而是选择通过蒸馏技术来避免了解,那么在下一代技术出现时,可能会陷入困境。
32. 大型模型和小型模型的能力不匹配。从大型模型向小型模型进行蒸馏是真正的蒸馏,即从老师到学生的过程。如果从完全不懂中文的模型蒸馏中文数据,性能可能会下降。但实际上,蒸馏小型模型确实可以显著提升性能。R1蒸馏后的模型再进行RL,性能会大幅提高,因为它使用了与模型不匹配的数据。
33. 蒸馏的坏处是模型多样性下降,会影响模型的上限,使其无法超越最强的模型。但短期来看,蒸馏仍然是一条可行的路线。
34. 使用蒸馏会存在一些技巧。早期一般在经过instruction调优的模型上进行RL。该阶段的模型特点是,先生成无用的想法,最后突然答对。原因在于许多RL技巧非常隐晦,模型可能在预训练时背诵了很多问题,因此表面上是在思考,实际上只是接近背诵过的题目。这是蒸馏的隐患。如果不进行标注就进行蒸馏,那么在进行具有可验证奖励的强化学习(RLVR)时,模型会使用更简单的方法解决问题,而不是像OpenAI一样深入思考。这可能是本代技术的缺陷。
35. 从长远来看,通过走捷径而不是自主思考如何制定技术方案,直接复现可能会存在未知的陷阱。例如,在当前长上下文技术没有质变的前提下,解决问题的上限可能受到限制。R1-zero可能是正确的方向,从一开始就做R1-zero或不通过类似o1的数据启动可能更好。直接照搬别人的技术方案可能不太好,更希望看到更多探索。
36. 其他模型也可以通过蒸馏获得较好的结果。未来,模型生态中可能会出现老师和学生的角色划分,成为一名优秀的学生也是一种可行的商业模式。
37. 在蒸馏和技术路线上,R1带来的震撼不如AlphaGo,但在商业上,其出圈能力远胜于AlphaGo。
38. 蒸馏分为两个阶段。如果只是蒸馏o1或R1,而没有建立自己的体系和可验证的奖励,会导致大家越来越依赖蒸馏。但通用领域无法进行蒸馏,因为奖励难以获得,并且在蒸馏过程中,如何获得特殊的CoT也是一个问题。此外,第一阶段的蒸馏会留下痕迹。用OpenAI蒸馏的模型可能遗留了OpenAI的大量退火痕迹。zero能够在纯RL阶段获得这种能力,与基础模型在退火后具有反思能力直接相关。
39. 不太相信纯互联网数据,而不经过退火的模型能够做到这一点,因为互联网上几乎没有高质量数据。
40. 目前,可能只有少数顶尖实验室在探索需要多少退火阶段的数据和数据配比。蒸馏与否都是RL算法的一种。SFT是行为模仿,是无限的强化学习,但只做SFT的上限很低,而且会损害多样性。
41. 一级市场上的创业公司对DeepSeek的出现感到兴奋。如果DeepSeek能够持续迭代,对于非大型上市公司而言,在AI应用方面将具有更大的灵活性。DeepSeek还蒸馏了多个可以在手机上运行的小版本。如果这个方向被验证,许多AI应用的天花板将被提高。
42. 蒸馏的关键在于确定目标是什么。OpenAI没有进行数据蒸馏,要超越OpenAI就不能进行蒸馏。
43. 未来,模型可能需要像人类一样学会跳跃式回答,在固定上下文长度下,能否提高模型的性能上限。
06 技术细节4:Process Reward:过程监督的上限是人
44. 过程奖励(Process Reward)并非不可行,但容易被奖励劫持。也就是模型可能没有学到任何东西,但却能够使奖励分数很高。如果用模型生成1000个步骤来解决数学问题,可能没有一个步骤接近正确答案,那么使用类似RLVR的方法就无法进行任何训练。如果有相对可靠的过程奖励,可能有助于接近正确的方向,过程分也有一定的帮助。这取决于问题的难度、过程奖励的可靠性等。
45. 在PRM估算中,如果过程分与真实值存在偏差,就很容易被劫持。过程监督在理论上是可行的,问题在于过程的力度以及如何基于过程的力度给予奖励。现在,结果监督也是使用提取的答案进行匹配。目前,还没有成熟的方案能够防止模型通过自身迭代来劫持分数。对过程进行标注并不难,可以枚举出来,只是大家没有这样做,这可能是一个有前景的方向。
46. 过程监督的上限是人,人有很多是想不到的。结果监督才是模型的上限。
47. AlphaZero之所以有效,是因为棋局的终局可以判断输赢,并且整个奖励可以根据胜率计算。但LLM无法得知持续生成能否给出答案,这有点类似于遗传算法,上限可能更高,但也可能无法避免被劫持。
48. AlphaGo到AlphaZero的一个优势是围棋的规则是固定的。现在,模型从数学和编程开始,是因为答案易于验证。验证方法是否足够好会影响RL的最终质量。规则必须足够完善,否则模型会试图劫持奖励,满足规则,但生成的结果可能不是想要的。
07 其他公司为何没用DeepSeek方法:大厂模型需低调
49. OpenAI和Anthropic没有采用DeepSeek方向的原因在于公司的聚焦方向。OpenAI和Anthropic可能认为将现有算力投入其他地方会更有价值。
50. 与大厂相比,DeepSeek可能因为没有在多模态领域投入,而是专注于语言,所以取得了成果。大厂的模型能力并不弱,但需要保持低调,不能发布太多。现在多模态不是关键,智能的主要来源是语言,对提升智能没有帮助。
08 2025技术的分化与押注:探索Transformer之外的架构
51. 模型在2025年会出现分化。最吸引人的愿景是不断推进智能的边界,这可以通过多种路径实现,方法可能会发生变化,例如合成数据、其他架构。
52. 2025年首先应关注新的架构。除了Transformer,是否可以找到其他的架构,这可以降低成本,并在降低成本的同时探索智能的边界。其次,RL的全部潜力尚未发挥。在产品方面,大家关注agent,但尚未大规模应用。
53. 2025年,多模态领域可能会出现挑战ChatGPT形态的产品。
54. R1和V3带来的低成本、高效率表明这是一种方向。这与扩大硬件、增加参数的方向并不冲突。国内由于受到限制,只能选择前者。
55. 首先,DeepSeek是从基础模型中逼出来的,还是遵循Scaling Law?其次,从蒸馏的角度来看,DeepSeek的蒸馏仍然是先大后小,对于越来越大的闭源模型来说是好事。第三,在技术发展中,还没有出现反规模指标,如果出现,可能对Scaling Law产生重大打击。开源模型的所有方法都可以在闭源模型中复现,并且可以降低成本,对闭源模型也是利好。
56. 据了解,Meta目前仍在复现DeepSeek的方法,但尚未对基础设施或长期路线图产生特别影响。从长远来看,除了探索边界,还要考虑成本,只有成本更低,才能有更多的玩法。
09 开发者是否从闭源模型迁移至DeepSeek:目前尚未出现
57. 开发者是否会从闭源模型迁移至DeepSeek?目前尚未出现大规模迁移,因为领先模型的代码指令遵循能力更强,但不确定这种优势在未来是否会被攻克。
58. 从开发者的角度来看,Claude-3.5-Sonnet专门针对tool use(工具使用)进行了训练,对构建agent非常有利,而DeepSeek等模型暂时没有提供。但DeepSeek带来的潜力巨大。
59. 对于大型模型应用者而言,DeepSeek V2已经满足了所有需求。R1的速度有所提高,但没有带来特别大的额外价值。在进行深入思考时,以前能答对的题目现在反而错了。
60. 应用者在选择模型时会使用工程方法简化问题。2025年可能是一个应用年,各行各业将使用现有能力进行开发。可能会逐渐到达瓶颈,因为日常可能用不到如此聪明的模型。
61. 现在RL解决了有标准答案的问题,没有比AlphaZero取得更大的突破,甚至更简单。蒸馏解决了标准答案的问题,在有了标准答案后,使用RL进行训练可以获得很好的效果。这也是为什么蒸馏或RL能够快速突破的原因。
62. 人类对智能的需求被远远低估了,例如癌症问题、SpaceX上的隔热材料都尚未解决。现有任务是自动化问题,还有许多问题有待解决。对未来增量的爆发持乐观态度,智能的发展不会停止。
10 OpenAI Stargate 500B叙事与算力需求变化
63. DeepSeek的出现使大家开始质疑英伟达(NVIDIA)和OpenAI最新的500B叙事。训练资源问题目前尚未有清晰的判断,OpenAI的500B叙事是在给自己寻找退路。
64. 对于OpenAI的500B基础设施投入持怀疑态度,因为OpenAI是一家商业公司,如果涉及举债,可能会有风险。
65. 500B是一个夸张的数字,可能需要4-5年才能完成。因为主导者是软银和OpenAI,前者提供资金,后者提供技术。软银目前的资金无法支持500B,而是使用手头的资产进行抵押。而OpenAI本身的资金并不充裕。其他更多是技术参与者,而非资金提供者。因此,要完全实现500B存在挑战。
66. OpenAI的500B算力是有道理的。在探索阶段,试错成本很高,人力和投资成本都很高。由于路线不明确,从o1到R1可能并不容易。但至少知道最终的结果,并且可以观察到中间的特征。可以直接按照别人的最终形态进行开发,比较有方向感。而如果是在前沿探索下一代,则需要消耗大量资源。追赶者不需要承担探索,但永远只能追赶。如果Google、Anthropic在探索领域取得成功,可能会成为最前沿的公司。
67. Anthropic未来有可能将所有的inference都替换为TPU或AWS Chip。
68. 国内公司原来受困于算力,现在证明了潜在的技术空间非常大。对于更高效的模型,可能不需要特别大的卡,可以提供相对定制化的芯片,可以在AMD、ASIC芯片上进行适配。从投资的角度来看,英伟达的壁垒非常高,但ASIC也会有更大的机会。
69. DeepSeek的出现与算力关系不大,更多是让美国感到中国的实力和效率。英伟达的软肋不在DeepSeek。只要AI继续发展,英伟达就能继续发展。英伟达的优势在于生态,这是靠时间积累起来的。在技术快速发展时期,生态非常重要。真正的危机在于技术成熟后,类似于电力,变成标准品。大家会关注产品,届时将会出现许多ASIC芯片用于特定场景的优化。
11 对二级市场的影响:短期情绪有压力,长期叙事继续
70. DeepSeek在短期内对美国AI界冲击很大,短期内会对股价产生影响:预训练需求增长放缓,后训练和推理扩展速度不足以快速扩大,相关公司的叙事会出现差距,这对短期交易确实会有影响。
71. DeepSeek更多使用FP8,而美国使用FP16。DeepSeek的亮点在于基于有限算力提升工程能力。上周五,DeepSeek在北美引起了巨大反响。扎克伯格提高了Meta的资本支出预期,但英伟达和台积电的股价均下跌,只有博通上涨。
72. DeepSeek在短期情绪上对股价和估值产生压力,对二级的算力相关公司甚至能源公司也会产生压力,但长期叙事会继续。
73. 二级从业者担心英伟达从H卡到B卡的转换过程可能存在一些空隙,加上DeepSeek的压力,短期股价会有压力,但长期来看可能是一个更好的机会。
74. 短期受到的影响体现了DeepSeek在训练方面的低成本投入情绪,例如英伟达的股价就反映了这一点。但AI是一个增量市场,潜力巨大。从长远来看,AI才刚刚开始,如果CUDA仍然是大家的首选,那么硬件的增长空间仍然很大。
12 开源VS闭源:能力相当,闭源将面临挑战
75. DeepSeek之所以受到关注,更多的是开源和闭源路线之争。
76. 这可能会导致OpenAI等公司将更好的模型隐藏起来。目前看来,领先的模型都未发布。但DeepSeek公开之后,其他AI公司的好模型可能也藏不住了。
77. DeepSeek在成本上做了很多优化。亚马逊等公司尚未因此作出改变,仍然按照既定的计划进行。目前,开源和闭源模型处于共存状态,并不矛盾。高校和小型实验室应该会优先选择DeepSeek,这不会对云厂商产生竞争,因为云厂商同时支持开源和闭源模型,生态不会发生改变。DeepSeek在工具使用等方面不如Anthropic成熟,后者在AI安全方面投入了大量时间。如果DeepSeek希望获得欧美市场的认可,需要考虑这些因素。
78. 开源可以控制整个市场的利润。如果开源能够达到闭源的95%的水平,那么如果闭源太贵,完全可以使用开源来替代。如果开源和闭源的能力相当,那么闭源将面临巨大的挑战。
13 DeepSeek出圈的影响:比技术更重要的是愿景
79. DeepSeek的成功出圈让外界意识到中国在AI领域的强大实力。之前外界认为中国在AI领域落后美国两年,但DeepSeek表明差距在3-9个月,甚至在某些方面更强。
80. 历史上,中国被美国封锁的技术,如果能够被突破,最终都会变得非常“卷”,AI可能也是如此,DeepSeek的成功就是一个证明。
81. DeepSeek并非突然爆发,这次R1的结果非常出色,触及了美国的核心圈。
82. DeepSeek站在巨人的肩膀上,但探索前沿仍然需要更多的时间和人力成本。R1并不意味着未来的训练成本会同时降低。
83. AI的探索者必然需要更多的算力,中国作为追赶者,可以发挥在工程能力上的优势。中国的大模型团队如何利用较少的算力取得成果,从而具有一定的抵抗能力甚至做得更好,这可能是未来中美AI格局的推演。
84. 中国今天仍然在复现技术方案。推理是OpenAI在o1中提出的,因此接下来各个AI实验室之间的差距在于谁能够提出下一个推理方向。无限长度的推理可能是一个愿景。
85. 不同AI实验室之间的核心差异在于实验室本身的下一个愿景是什么,而不是技术。
86. 毕竟,比技术更重要的是愿景。
(本文观点仅供行业研究参考,不作为投资依据)
本文来自腾讯科技,主笔:张小珺,编辑:马龙,36氪经授权发布。