AI新星DeepSeek:打破巨头垄断,低成本高性能引爆全球
春节期间,一款名为DeepSeek的AI产品引发了广泛关注,它不仅在技术上取得了突破,更挑战了长期以来由美国科技公司主导的人工智能格局。
1月20日,中国科技公司深度求索发布推理模型DeepSeek-R1,其性能与OpenAI的最新模型GPT-o1相当,而成本仅为其十分之一。此前,DeepSeek的V3模型仅用558万美元的训练成本,就达到了与GPT-4o和Claude Sonnet 3.5等需要数亿美元训练的顶尖模型相媲美的性能。这一系列成果迅速引起了全球科技界的广泛关注。
DeepSeek-R1发布后的十天内,迅速登上包括中国、美国在内的70多个国家苹果应用商店下载榜榜首,成为全球首个超越OpenAI ChatGPT的产品。这一突破引发了美国科技公司的焦虑,也引发了华尔街对算力需求的担忧。1月27日,美国主要科技股市值大幅缩水,英伟达等科技巨头股价暴跌。
与此同时,美国科技公司开始研究和模仿DeepSeek,Meta甚至成立了多个小组进行专门研究。然而,质疑和挑战也随之而来。
在过去几年的人工智能竞赛中,中国公司一直处于跟随地位,只能通过增加资源投入追赶美国公司,而技术风向始终由OpenAI、Meta等美国科技巨头掌控。美国政府的芯片出口管制进一步加剧了中国AI企业的算力焦虑。
DeepSeek最新模型的出现,打破了行业内大模型发展沦为巨头与资本游戏的共识,为中国AI企业提供了一条新的思路:绕开美国堆算力的技术路线,通过算法优化和效率优先,实现“低成本高产出”的弯道超车。
量化基金背后的AI力量:DeepSeek如何实现弯道超车?
DeepSeek在全球范围内引发关注后,一些国外媒体将其描述为一家不知名的中国公司,这种描述并不准确。DeepSeek的母公司幻方量化是一家管理资产超过1000亿元的国内头部量化交易公司,多年前就开始涉足人工智能研究。
DeepSeek创始人梁文锋最初研究AI的目的是用GPU计算交易仓位,训练量化交易模型。出于对AI能力的好奇,他们囤积了过万块先进GPU芯片,开始训练AGI模型。这为DeepSeek日后的模型发展奠定了基础。
DeepSeek并非横空出世,在此前的V3和R1模型之前,它就曾以率先发起大模型价格战而在中国AI行业引起关注。2024年5月,DeepSeek发布DeepSeek-V2,价格仅为GPT-4-Turbo的近百分之一。此后,多家中国公司的大模型相继降价,而DeepSeek更是在一年内三次降价,每次降幅超过85%。
降价的背后是训练和推理成本的持续降低。与OpenAI及其中国效仿者们花费数亿美元训练大模型不同,DeepSeek走了一条更加“抠门”的路线。
其研究人员提出的MLA架构结合混合专家结构,将显存占用降低到其他大模型常用的MHA架构的5%-13%。通过“数据蒸馏”技术,DeepSeek仅用1/5的数据量就达到了同等效果,进一步降低了成本。
传统的通用大模型每次处理问题都需要激活全部参数,而DeepSeek-R1则会先判断问题类型,再精准调用对应模块,例如数学题交给逻辑推理单元,写诗则由文学模块处理。这种设计让模型响应速度提升3倍,能耗也更低。
这种“低成本、高性能”的实现,得益于DeepSeek的算法优化。R1的预训练费用仅为557.6万美元,在2048块英伟达H800 GPU集群上运行55天完成。而OpenAI等公司训练模型则需要花费数亿美元,使用数千甚至上万块Nvidia A100、H100等顶级显卡。
DeepSeek并没有选择与OpenAI等公司相同的“通用智能”发展道路,而是从垂直场景切入,在部分领域(如数学、代码)追求更优的表现,再逐步完善其他领域的能力。这种做法虽然风险较高,但也为DeepSeek提供了差异化的竞争优势。
早期DeepSeek的MoE模型误判率高达15%以上,团队通过引入强化学习优化路由决策,最终将误判率控制在个位数。行业人士将DeepSeek视为“模块化特种兵”,在特定领域展现出与“通用巨兽”相匹敌甚至更优的实力。
DeepSeek跳过了美国开发者们认为必不可少的步骤,这意味着在资金和算力劣势的情况下,中国甚至世界各地的AI创业公司都有机会实现弯道超车,在特定领域建立优势,避免与巨头正面竞争。
开源模型:DeepSeek的选择与行业壁垒
DeepSeek的成功,不仅来自其模型本身的性能,还与其坚持的免费开源主张密切相关,它公开了模型的源代码、权重和架构。这意味着,无论是个人、开发者还是企业用户都可以免费使用其最新模型,并在其基础上开发更多应用。
这一决策受到了许多行业专家和投资者的赞扬。英伟达高级研究科学家Jim Fan评论称,DeepSeek正在延续OpenAI的初衷,做真正开放、为所有人赋能的前沿研究。硅谷风投A16Z创始人Marc Andreessen也称赞DeepSeek-R1是令人惊叹的突破,是给世界的礼物。
OpenAI最初是为了对抗谷歌在AI领域的垄断而诞生,但随着GPT-3的发布和微软的投资,出于商业考虑,OpenAI走向了闭源。目前,其他一些大型模型如Meta的Llama虽然号称开源,但其许可证需要申请访问权限,限制了部分商业用途,并且只公开部分架构细节,并不提供完整的训练脚本,对于AI产业的进步意义有限。
中国的大多数大公司,如百度、华为等也选择了闭源路线。这些公司往往有足够的资源和用户数据,可以依靠内部循环完成模型的训练和迭代。闭源可以让他们在模型专长的领域保持优势。
DeepSeek选择开源,既是对传统大厂技术垄断的挑战,也是出于自身发展情况的考虑。通过开源策略,DeepSeek可以快速建立生态,获得更多的用户和开发者支持。 DeepSeek创始人梁文锋希望DeepSeek成为更多公司的模型底座,让小型应用也能低成本使用大模型,而不是让技术掌握在少数人手中。
DeepSeek选择的模块化模型设计,如同精密的钟表,单个齿轮的工艺或许可以复制,但整体协同需要长期试错与生态积累。竞争对手无法简单照搬其原始模型。越多的用户和开发者使用,模型就会得到更多的训练。
目前,DeepSeek背靠千亿量化基金,在资金上没有后顾之忧,选择了只做模型研究、不考虑商业变现的理想主义道路,通过开源基础模型吸引开发者,未来再逐步通过企业版工具链推进商业化。
在当今的AI竞争格局下,对于一家创业公司,开源不仅是技术策略,更是参与制定行业规则的关键一步。在模型能力逐渐透明的未来,真正的竞争优势将来自构建数据反馈闭环的能力,以及将技术影响力转化为商业生态的能力。
这是一场关于“标准制定权”的争夺。谁的开源协议能够成为行业事实标准,谁就能在下一代AI基础设施中占据核心位置。中国科技公司与美国科技公司之间的差距,不是时间维度,而是创新和模仿的差别。DeepSeek代表的中国科技公司,这一次给出的方案不再是模仿跟随,而是创新。