算力竞赛转向效率之争
人工智能领域,曾经盲目追逐算力的时代已逐渐过去。如今,算法架构和数据质量成为新的焦点。各大企业开始更加注重商业模式的思考,力求“化繁为简”。然而,模型参数的急剧膨胀导致训练成本水涨船高,成为行业难题,甚至有创业团队因此受挫。
2024年末,Deepseek V3的发布给行业带来了新希望。这款拥有6710亿参数和14.8万亿高质量tokens的大模型,不仅在性能上表现卓越,更以仅557.6万美元的训练成本和280万GPU小时的计算需求,成功与顶尖模型竞争,并在能效上遥遥领先。据报道,12月Deepseek访问量激增164%,达到1180万次。这一突破背后,究竟隐藏着哪些技术创新与战略布局?它能否真正解决成本难题?
Deepseek,这家曾打破token价格池,并再次展现低成本高效能的公司,究竟有何过人之处?
Deepseek的崛起之路
要理解Deepseek的崛起,不得不提到其“母体”幻方量化。幻方量化成立于2012年,专注于量化投资。该公司利用海量数据“捕捉”市场波动,结合机器学习和高频交易策略,在资本市场取得了显著成功。量化公司的核心优势在于处理海量数据和高效运算的能力。
与普通投资机构相比,幻方量化对硬件需求更为严苛。为了快速挖掘市场机会,他们不仅与时间赛跑,更要与算力“掰手腕”。幻方量化在算力投入上“不差钱”,先后投资超过2亿元打造“萤火一号”深度学习训练平台,配备1100块GPU;随后又斥资10亿元升级到“萤火二号”,将GPU数量增加到1万张Nvidia A100。
这台“算力巨兽”不仅用于量化交易,也为幻方量化向AI领域渗透提供了坚实后盾。雄厚的硬件投入为后来的大模型研发埋下了伏笔,也使得幻方量化成为少数有能力进行大规模AI研究的“玩家”。
Deepseek的诞生与策略
在硬件支持下,幻方量化内部孵化了一个AI部门,由梁文锋带领。梁文锋在量化金融和机器学习领域深耕多年,被认为是“既懂金融又懂AI”的全才。2020年,为了更集中地研发AI大模型,梁文锋将团队独立出来,正式成立了Deepseek。
在AI大模型仍处于“算力为王”的阶段,Deepseek并没有盲目跟风,而是将第一款产品DeepSeekCoder定位为开发者工具和基础商业应用。虽然没有引起巨大轰动,但它为Deepseek在数据收集、算法打磨以及团队磨合上奠定了基础。
Deepseek以稳扎稳打的方式前进,关键策略在于夯实底层数据和算法路线,并利用幻方量化的资源搭建算力基础,为后续升级迭代打下基础。
开源策略:社区驱动发展
2024年,Deepseek选择了开源路线。在许多投资人眼中,开源意味着失去控制权,盈利不明朗。但Deepseek团队认为,开源可以吸引更多研究者和开发者参与,形成“你中有我、我中有你”的社区氛围。他们认为,“先把模型开放给社区,形成口碑与技术生态,再构建商业场景”更适合Deepseek的成长模式。
事实证明,社区的力量不可小觑。许多技术博主和开发者自发成为Deepseek的“宣传员”,分享测试体验和二次开发心得,为Deepseek提供了大量改进意见,品牌影响力迅速提升。
Deepseek-R1-Lite的成功
2024年11月20日,Deepseek发布了Deepseek-R1-Lite预览版。该模型在强化学习方面取得突破,在复杂的数学、代码生成和逻辑推理场景中表现出色。开发者们惊呼“没想到一个‘默默无闻’的团队,能在大模型领域杀出一条‘奇兵路’”。
R1-Lite的成功使Deepseek受到更多关注,在一个月内访问量飙升至1180万次,环比增长164%,为Deepseek V3的发布奠定了基础。
Deepseek V3的震撼发布
2024年12月26日,Deepseek正式发布Deepseek V3。其技术报告中最引人注目的是:6710亿参数和14.8万亿tokens的训练数据规模。Deepseek V3的参数量已逼近或超越主流巨头的大模型。最令人震惊的是其低成本:仅以557.6万美元完成训练,总计280万个GPU小时。
这一“性价比”数据迅速成为技术圈热门话题。人们纷纷猜测:“他们是怎么做到的?”
技术创新:稀疏MoE与FP8混合精度
Deepseek V3的技术创新体现在稀疏Mixture of Experts(MoE)架构和FP8混合精度训练。MoE架构并非让所有参数每次都“全员出动”,而是只激活5%~10%的“专家网络”,大幅降低训练所需的算力。对于6710亿参数的大模型而言,MoE架构就像一个“隐形刹车”,提高整体效率。
Deepseek V3还采用了FP8混合精度训练。虽然FP8在数值稳定性上存在挑战,但也显著减少了计算量和显存占用,让单位GPU小时发挥更大价值。技术专家认为,这是在工程实现上难度相当高的一步,但一旦突破,就能使训练速度和能效同时提升。
数据质量与算力调度
大模型训练的三大要素是算力、架构和数据。Deepseek既然不“砸钱堆算力”,就必须在架构和数据上发挥最大效能。Deepseek V3的训练数据规模达到14.8万亿tokens,并对数据重复度和质量进行了严格筛选。此外,Deepseek通过后训练和蒸馏策略,减少了对RLHF的依赖,节省了人工成本并优化了数据处理流程。
在算力层面,幻方量化为Deepseek提供了坚实后盾。但Deepseek并未满足于单纯地“排队烧卡”,而是开发了高效的软件栈、集群管理和数据管线,大幅提升了资源调度和集群利用率。
质疑与对比:Deepseek的定位
Deepseek V3获得赞誉的同时,也受到质疑。有专家指出,其成本核算可能存在“未尽事宜”,例如使用R1模型生成和清洗数据的费用是否包含在内?此外,模型训练成本降低,但推理和运维仍需大量GPU支撑,后续费用能否保持“亲民”仍待观察。
技术圈喜欢横向对比。有人将Deepseek V3与GPT-4o、Claude-3.5-Sonnet-1022等进行测试,结果各有侧重:Deepseek V3在代码场景和复杂数学任务中表现突出,甚至逼近或超越国际一线模型;在知识问答和长文本处理中,GPT-4o依旧最优。价格层面,Deepseek V3百万tokens级别的推理费用远低于GPT-4o。若企业对成本敏感,Deepseek无疑是一匹黑马。
Deepseek V3的优势和短板都很明显:它以“低成本+在特定任务上的强表现”吸睛,但在通用性和稳定性方面尚未超越顶尖选手。它在特定任务上表现优异,但在通用性方面仍需提升。
结语:商业化与开源的挑战
当下,也有企业逐步选择开源。例如Minimax最近也开源了模型MiniMax-Text-01,同样应用MOE架构训练。开源是赢得社区和口碑的捷径,但要实现商业化,还需考虑如何与企业应用结合。模型不仅要“便宜+好用”,更要保证数据安全、稳定性以及定制化服务。
在金融领域,Deepseek与其“老东家”幻方量化可形成协同效应,为金融科技、保险、投资机构提供定制化AI解决方案。量化投资对大模型的实时性和稳定性要求极高,而这正是Deepseek的优势。
然而,Deepseek未来还面临着模型通用性和推理成本两大挑战。虽然Deepseek V3强调了低训练成本,但推理成本依然不可忽视。大模型商用后,海量的用户查询会带来巨大的计算需求,如何平衡推理价格和营收是关键。
此外,通用性永远是大模型的“终极考验”。Deepseek作为纯技术背景出身的团队,如何解决多场景下的瓶颈,是其能否迈向“通用化”大模型的关键。在不同文化背景、不同行业领域提出的问题,模型能否自如应对,是大模型走向大规模商用的门槛之一。
Deepseek提升了训练速度和生成效率,TPS达到了3倍增长,展现了团队在工程实现和硬件利用率上的实力。如果能将这种“硬核能力”延伸到更多场景和跨语言支持,Deepseek 便有机会在AI大模型的热潮中取得更广泛的应用。