DeepSeek R1 引爆 AI 社区:性能超越,成本颠覆
近日,DeepSeek 的一项重大发布在 Reddit 和 𝕏 等社交媒体上引发了狂潮,其性能之卓越远超预期。此次发布的核心内容有三点:
- 开源 DeepSeek-R1 推理大模型: 性能与 OpenAI 的 o1 模型相近,为行业提供了新的高性能选择。
- 开源 DeepSeek-R1-Zero 预训练模型: 采用直接强化学习 (RL) 方法,不依赖监督微调 (SFT),如同语言模型领域的 AlphaZero。
- 开源 R1 数据蒸馏的 Qwen 和 Llama 系列小模型: 在部分任务上,其表现甚至超过了 GPT-4o。
此次发布还开放了官方 API,输入 token (命中缓存) 价格仅为 OpenAI o1 的 1/50,未命中缓存和输出 token 价格约为 1/27。如此低廉的价格,无疑将大大降低 AI 应用的门槛。
R1-Zero 的“顿悟时刻”
DeepSeek-R1-Zero 模型在思考过程中展现出 “顿悟时刻”, 能够自行为问题分配更多思考时间。这种自我进化能力,让人们对 AI 的未来发展充满想象。
有网友推测,如果能够稳定利用这种“顿悟”能力,其潜力将难以估量。
另外,社区猜测 OpenAI 的 o1-pro/o3 模型可能采用了 “tree-of-agents” 方法,即多个 o1 分身共同解答问题,然后选择最优答案。若将 DeepSeek-R1 与 Search-o1 和 Tree-of-Agents 结合,或能以极低成本获得媲美 o3 的性能,成本可能降低数百倍。
蒸馏模型超越 GPT-4o,开源策略造福业界
DeepSeek 还开源了 6 个基于 R1 数据蒸馏的小模型, 其中,蒸馏版 Qwen-1.5B 在某些任务上超越了 GPT-4o,展现出极强的性能。
此外,DeepSeek 将开源许可证更新为 MIT Lisence,使得 R1 模型、数据和 API 均可免费用于商业用途,极大推动了 AI 技术在各个领域的应用。
因此,有人称 DeepSeek 此次的发布为“新的源神” 降临。
DeepSeek R1 技术细节:强化学习与多阶段训练
OpenAI 的 o1 系列模型引入了推理时扩展的概念,通过延长思维链推理过程,在数学、编程和科学推理等领域取得了显著的性能提升。DeepSeek 团队则采用纯强化学习的方法提升语言模型的推理能力,旨在探索在没有监督数据的情况下,通过强化学习实现模型的自我进化。
DeepSeek-R1-Zero:纯强化学习的探索
DeepSeek-R1-Zero 使用 DeepSeek-V3-Base 作为基础模型,采用 GRPO 强化学习框架来提高推理能力。训练过程中,该模型自然涌现出强大的推理能力。在 AIME 2024 测试中,其 pass@1 得分从 15.6% 提高到 71.0%, 通过多数投票进一步提高到 86.7%, 性能与 OpenAI-o1-0912 相近。
DeepSeek-R1:结合冷启动数据和多阶段训练
为了解决 R1-Zero 可读性差和语言混杂的问题, DeepSeek 团队提出了 DeepSeek-R1。 该模型结合了少量冷启动数据和多阶段训练流程:
- 首先收集冷启动数据微调 DeepSeek-V3-Base 模型。
- 然后进行类似于 R1-Zero 的强化学习。
- 当强化学习接近收敛时,通过拒绝采样,结合其他领域的监督数据,创建新的 SFT 数据,并用其重新训练 DeepSeek-V3-Base。
- 最后,再对该模型进行额外的强化学习。
通过这些步骤,DeepSeek-R1 的性能达到甚至超越了 OpenAI-o1-1217。
R1 数据蒸馏模型:小模型也能有大作为
DeepSeek 团队还探索了将 DeepSeek-R1 蒸馏到更小的模型中。 使用 Qwen2.5-32B 作为基础模型进行直接蒸馏,其效果优于在基础上进行强化学习。 这表明,更大模型发现的推理模式对提高推理能力至关重要。 他们开源的蒸馏 Qwen 和 Llama 模型中,14B 模型大幅超越当前最先进的开源 QwQ-32B-Preview,而 32B 和 70B 模型在密集模型中树立了新的推理基准。
DeepSeek 团队还分享了许多失败的尝试,避免后人踩坑。 在过程奖励模型和蒙特卡洛树搜索算法上,他们未能取得进展。 但他们强调,这并不意味着这些方法不能开发出有效的推理模型。
未来,DeepSeek 计划在通用能力、解决语言混杂问题、优化提示词敏感问题,以及改进软件工程任务的性能等方面继续深入研究。
彩蛋:AI 撰写论文?
有英语母语者指出论文的措辞可能出自大模型之手。此外,DeepSeek 的许多论文将 “DeepSeek-AI” 列在作者列表首位,引发了人们的猜测与讨论。
DeepSeek-AI工具地址:【点击登录】