2025年初,DeepSeek的突破性进展在全球AI领域引起广泛关注。在OpenAI斥巨资推进“星际之门”计划,Meta构建百万GPU级数据中心之际,这家中国团队仅用2048张H800 GPU,在短短两个月内训练出了媲美世界一流水平的大模型,打破了人们对大模型军备竞赛的固有认知。
这一成就不仅动摇了英伟达的万亿美元市值,更引发了整个行业对于人工智能发展路径的反思:在通往通用人工智能(AGI)的道路上,我们是否过度依赖算力规模,而忽略了更具务实性和创新潜力的发展方向?
与2023年“越大越好”的粗放式发展模式不同,2025年的AI发展或许将更像是一场精打细算的技术炼金术:如何以最少的资源实现模型效能最大化,如何在特定场景下达到极致效率?DeepSeek的案例已经展示了这种模式的强大威力——开发者们倾向于选择性价比更高的开源方案,当数以万计的应用都以DeepSeek为基础构建时,由此形成的生态将如何重塑AI产业格局?
本期《智者访谈》特邀清华大学计算机系长聘教授、高性能计算研究所所长翟季冬,深入探讨大模型时代的AI算力优化之道。翟季冬教授认为,DeepSeek能够实现百倍性价比提升,系统软件层面的深度创新功不可没。
“性能优化是一个永无止境的过程,”翟季冬教授指出,在中国面临算力资源挑战的大背景下,通过系统软件创新来提升算力效能,是产业突围的关键所在。这不仅需要在编程语言、编译器、通信库、编程框架等多个技术层面同时发力,更需要构建起一套完整的基础软件体系。
当下,一个值得深思的现象是:尽管AI算力需求持续增长,但国内众多智算中心的国产算力资源却存在闲置情况。供需错配的背后,暴露出我国基础软件体系存在的短板。
然而,困境也蕴藏着重大的发展机遇:如何打通从应用到系统软件,再到自主芯片的完整链路,探索出一条符合中国国情的发展路径?这既是一项技术创新,更是一项战略抉择。
在算力主导AI竞争力的时代,如何使每一份计算资源都能释放出最大价值,这个问题本身与答案同样重要。
时间戳
03:35 DeepSeek 与算力需求未来趋势
06:41 算力效能评估新视角
10:26 中美硬件差异下的软件思考
14:00 为何还没 Transformer 专用芯片
17:41 万卡集群训练难点
21:01 降本增效:推理优化的关键
24:41 Infra 如何为下一代大模型做好准备
27:19 大规模异构集群的算力管理
29:42 智算供需错配:系统软件如何补位
访谈文字整理
机器之心:翟季冬教授您好,欢迎来到机器之心的《智者访谈》。最近AI算力市场呈现出许多新趋势。首先,大家热议的焦点是,Scaling Law是否真的遇到了瓶颈?其次,随着OpenAI o1/o3模型的发布,通过增加推理计算时间也能显著提升模型性能,这也促使我们重新审视算力的使用方向。
可见,如何提高算力利用效率已成为业界日益关注的重点。我们非常荣幸能邀请到您,从系统软件的视角一同探讨算力优化之道。
DeepSeek 的启示:性能优化永无止境
翟季冬:谢谢主持人。很荣幸能有机会在机器之心与大家交流。Ilya Sutskever曾在论坛上提到,我们所知的Scaling Law已接近尽头。对此,我有一些看法。首先,互联网上高质量的文本数据确实日益减少,但多模态数据(如图片、视频)仍有巨大的挖掘空间,这将对未来的模型训练产生深远影响。
其次,以OpenAI o1/o3为代表的复杂推理系统,在后训练阶段采用了强化学习(RL)等技术,RL会生成大量新数据,这也导致算力需求持续增长。此外,目前训练一个基座模型可能需要数周甚至一两个月,如果拥有更多算力,或许几天就能完成预训练,这将极大提高后期的生产效率。最后,终端用户对性能(包括精度)的追求是永无止境的。
机器之心:DeepSeek公司最近在业界引发热议,他们以较低成本训练出了媲美国际顶尖水平的模型。您认为其提升的关键因素是什么?
翟季冬:首先是算法层面的创新。他们采用了新的MoE架构,运用共享专家和大量细粒度路由专家结构。通过将通用知识压缩到共享专家中,可以减少路由专家的参数冗余,提高参数效率;在保持参数总量不变的前提下,划分更多细粒度路由专家,通过灵活组合路由专家,有助于更准确、更有针对性地进行知识表达。同时,通过负载均衡的算法设计,有效缓解了传统MoE模型因负载不均衡带来的训练效率低下问题。
其次,在系统软件层面,DeepSeek进行了大量精细化的系统工程优化。例如,在并行策略方面,采用双向流水并行机制,通过精心排布,实现了计算与通信的重叠,有效降低了流水并行带来的气泡影响;在计算方面,采用FP8等混合精度进行计算,降低计算复杂度;在通信方面,采用低精度通信策略和token路由控制等机制,有效降低通信开销。
上述算法与软件创新优化,显著降低了模型的训练成本。DeepSeek的成功启示我们,如何在有限的算力条件下,通过算法与软件的协同创新,充分挖掘硬件的极致性能,这对中国未来人工智能发展至关重要。
从DeepSeek的案例中可以看出,大模型领域仍然存在巨大的改进空间。他们的创新涵盖了从算法、软件到系统架构的多个层面,为国内大模型的发展提供了很好的借鉴。
我长期从事高性能计算研究,我们一直追求应用程序的极致性能。之前我带领清华学生参加国际超算比赛时,每当拿到题目,我们都会深入思考:当发现负载的某些特性后,如何针对这些特性进行有效优化,可能带来几十倍、几百倍甚至上千倍的性能提升。可以说,性能优化是一个永无止境的过程。
在当前形势下,中国在算力资源方面面临巨大挑战。国外如微软、X公司等,投入了10万卡甚至更大规模的算力,在此基础上,他们可能将更多精力放在设计更好的模型上,极致的性能优化也许不是他们目前的重点。但当我们算力有限时,例如固定只有1万张加速卡,就需要思考如何更充分利用这些硬件,挖掘算法、系统,以及硬件等各方面的协同创新潜力。
机器之心:追求性能优化和模型创新这两种发展路线是否相互冲突?它们能否在同一阶段共存?
翟季冬:从系统软件层面来看,它与算法发展是解耦的。换句话说,这些优化技术同样适用于算力更充足的场景,在美国的研究环境中也可以应用,不会阻碍上层模型的发展。
机器之心:业界似乎还没有建立起一套客观评估算力利用效率的体系或标准。您认为应该如何科学、客观地评价算力利用率?
翟季冬:这是一个很棒的问题。目前一些科技报道经常提到“GPU利用率”这一指标,但要评估一个系统的性能,很难用单一指标来衡量,就像评价一个人不能只看单一维度一样。
具体而言,在大模型训练时,GPU利用率只是一个方面。在大型集群中,还包括网络设备、存储设备等。单纯追求GPU利用率很高,而网络利用效率或内存使用率很低,这并非最优状态。从系统软件优化的角度来看,我们需要追求整体均衡,可以通过提高网络和内存的利用率来适当降低GPU消耗。
评价标准也因场景而异。在训练场景中,我们更关注整个集群(包括加速卡、存储、网络、通信等)的整体利用效率。在推理场景中,终端用户更关心延迟,例如是否能在几毫秒内得到响应,除了第一个token的生成延迟,后续每个token之间的间隔时间也是关键指标;算力提供方则更关注整体吞吐量,例如1000张加速卡每天能处理多少请求,是每天能响应100万个请求,还是1000万个请求。
一个经常被忽视但非常重要的指标是成本,特别是每个token的处理成本。人们常说追求极致性能,但当我们将成本约束也纳入考虑时,对系统吞吐量和处理延迟的讨论才更具有现实意义。从长远来看,显著降低推理成本对于推广AI应用至关重要。
中美硬件差异下的算力突围
系统软件双向适配
机器之心:由于中美之间的硬件差异,大家非常关注软件栈层面是否会产生代际差异,甚至发展出不同的技术路线?
翟季冬:中国在系统软件方面确实面临着不同的思考方向。在美国和欧洲,AI基础设施主要以NVIDIA GPU为主,但在中国,很难获得最先进的NVIDIA算力。
NVIDIA GPU之所以受欢迎,很大程度上归功于其成熟的生态系统。我印象深刻的是,从我读书时期开始,NVIDIA就与清华等高校展开合作,探索如何更好地在他们的硬件上实现加速。他们现在的软件栈也是经过多年积累形成的。相比之下,中国的AI芯片公司大多始于近几年,发展历程不到十年。
我们还有很长的路要走,无论是在底层编译器优化芯片算力,还是在多卡互连的高效通信协同方面。中国面临双重挑战:一方面需要补齐短板,提升芯片易用性;另一方面,由于无法获取最先进的芯片制程工艺,可能落后国外一到两代。这使得软件与硬件的协同优化在中国显得更为重要,我们需要挖掘所有可能的优化空间。
机器之心:您认为我们应该如何应对NVIDIA建立的软件生态壁垒?
翟季冬:作为后来者,我们首先要学习他们在算子库、编程语言和编译器方面的先进理念。在不违反知识产权的前提下,我们可以借鉴这些成果,但不能完全照搬,而要有自己的思考。例如,在工艺制程落后的情况下,我们可以在软件栈方面做些什么?针对与NVIDIA不同的架构特点,我们是否可以进行自主创新?
如果能够打通从应用侧到系统软件,再到自主研发芯片的整条路径,我相信我们能找到一条适合中国现实环境的可行发展路线。
从学术角度来看,我们可以探索开发更出色的领域特定编程语言,让用户编写高层代码时能自动生成更高效的实现。这方面还有很大的探索空间,但要实现商业落地需要时间。
机器之心:谈到大模型算力优化,为什么还没有芯片厂商推出Transformer专用芯片?您如何看待这个趋势?
翟季冬:我认为现在没有并不代表将来不会有,可能有些公司正在朝这个方向努力。从芯片设计到流片再到封装,整个过程成本非常高,必须要有足够大的市场空间才能支撑这种特定架构。
如果大模型最终确实以Transformer架构为主,我们确实可以设计一款完全针对Transformer的专用芯片。但目前存在几个主要考虑:首先,AI模型发展非常迅速,我们无法确定Transformer架构是否会一直保持主流地位,可能还会出现新的非Transformer架构。其次,Transformer本身也在不断演化,比如MoE这类稀疏激活模型,以及多模态MoT(Mixture-of-Transformers)的稀疏特性,这些特性很难在芯片层面直接描述。
回顾最近一波AI发展,大约从2012年至今,最初以卷积神经网络为主,一些芯片公司专门为卷积设计了ASIC芯片。但到了2017年后,Transformer架构逐渐兴起,与卷积有很大差异,导致之前针对卷积优化的ASIC芯片难以适应新架构。
值得注意的是,在此过程中NVIDIA虽然也在其芯片架构中添加了各种新的硬件模块,但整体架构保持相对稳定,通过系统软件来适应应用的变化,例如他们的Tensor Core针对矩阵乘法进行优化,而不是专门为Transformer的某个组件(如Attention)设计特定架构。
机器之心:NVIDIA的做法能给我们带来什么启示?
翟季冬:从软件角度来说,最大的启示是以不变应万变。专用硬件的设计思路,本质上是将具体的算法用电路去实现,但设计的关键在于如何将这个具体的算法拆解成合适的、通用的基本硬件单元,以便各种应用都能通过这些基本单元来实现。例如,NVIDIA的Tensor Core是将各种操作都转换为矩阵乘法,这种映射方式相对更灵活。
拆解的核心在于粒度要恰到好处:粒度过大,小型应用难以有效利用硬件资源,造成浪费并降低性能;粒度过小,则会增加数据搬运和调度开销,降低整体效率,并增加硬件和软件的复杂度。这是一个需要权衡的设计选择。
机器之心:现在很多公司一方面投资现有基础设施购买各类计算卡,一方面也与高校合作并投资创业公司,以应对非Transformer架构带来的挑战。从系统软件层面来看,这种布局能在多大程度上应对下一代技术的冲击?
翟季冬:系统软件的本质是将上层应用程序更好地映射到底层硬件。一方面要关注应用层面的变化,比如现在多模态模型越来越重要,我们就需要思考多模态带来的新模式和负载特征,同时也要关注底层架构的演进,无论是NVIDIA GPU还是国产加速卡,都可能会增加新的计算单元或访存单元,我们需要思考如何更好地利用这些硬件特性。
系统软件的核心任务是密切关注上下层的变化,通过中间层的合理设计将两端匹配起来,让硬件效率发挥到极致。对于正在探索的新型模型,我们需要分析它们的负载特征,研究如何更好地映射到底层芯片以充分利用硬件资源。
从提前布局的角度来说,系统软件要做好新兴应用负载的分析。同时,当新的芯片架构出现时,系统软件也要及时做出相应的改进和适配。这种双向适配能力,是系统软件应对技术变革的关键。
万卡集群时代的算力优化
机器之心:您参与了多个基座大模型的训练,在使用万卡级集群方面拥有第一手经验,能否分享一下在这种超大规模训练中遇到的主要技术挑战?
翟季冬:2021年,我们与北京智源研究院等机构合作,使用新一代神威超算系统进行一个基座大模型的训练,可以将其理解为一个10万卡的集群。在这个过程中,我体会到大模型训练主要有以下几方面的挑战。
首先是并行策略的选择。由于模型很大,用10万台机器去做,就要将模型进行切分,就像将一块豆腐切成很多块,可以切成方块,也可以切成细条,原理是一样的。要把一个大模型分到10万台机器上,也有很多切分方式。用专业术语来讲,比如有数据并行、模型并行、流水线并行、序列并行等等,每个并行策略都有自己的优缺点。在10万台机器上,如何组合这些并行策略本身就是很大的挑战。而且10万规模的集群,没办法像单卡那样反复测试各种策略,一定要将策略分析清楚了才去跑,因为一次测试成本非常高,不允许做过多尝试。
第二个挑战是通信问题。10万台机器需要通过高速网络互连,但不同的机器组网方式不一样,网络拓扑也不同。大模型训练时有很多通信函数,这些通信函数如何与底层网络拓扑高效映射是一大挑战。我们发现,不同的通信策略可能导致1-2倍的性能差异。
第三个挑战是容错机制。当机器规模增大,整个系统的平均无故障时间就会非常短。基座模型训练通常需要数周到一两个月。我们必须设计轻量级的容错机制,在硬件出现故障时能快速替换出错的卡并继续训练,同时将开销降到最低。
最后,单卡性能也至关重要。在关注万卡、10万卡这类整体系统的同时,也要将单卡效率做到极致,例如通过编译优化等策略,确保每张卡都能发挥出最大性能。
机器之心:在提升算力利用率方面,我们应该关注哪些方面?
翟季冬:大模型的生命周期包含多个阶段,每个阶段对算力的需求都不同。我们刚才讨论了预训练,但在预训练模型完成后,还有一个很重要的阶段是后训练(post training)。以OpenAI o1/o3为代表的后训练技术,为整个训练过程带来了新的挑战。
后训练包括生成阶段、推理阶段和微调阶段,每个阶段的负载特点不同,最优的并行策略也会不同。需要注意的是,不能简单追求每个阶段的局部最优,因为阶段之间的切换也会产生开销。我们要从整个pipeline的角度来考虑优化策略。后训练还面临着负载不均衡的问题,需要探索如何有效重叠不同阶段以提高资源利用率。
在微调阶段,客户往往会用自己的私有数据对基座模型进行调整。由于硬件资源可能有限,这时需要考虑一些特殊的策略,比如offloading,即将GPU内存不足时,将部分参数存储在CPU端。微调本身作为一个训练过程,对并行策略也有很高的要求。
推理阶段的优化面临更多挑战:
KV Cache管理:推理过程会产生大量中间结果(KV Cache),用于降低计算量。如何管理这些数据非常关键,比如可以采用页面式管理,但页面大小是固定还是根据负载特征动态调整,都需要仔细设计。
多卡协同:当模型较大时需要多GPU配合,比如在8个GPU上进行大模型推理,如何优化卡间并行也是一个挑战。
算法优化:还可以从量化等角度进行优化,充分发挥底层算力性能。
总之,从预训练到后训练,再到微调和推理,每个阶段对算力的要求都不同,我们需要针对这些特点进行深入优化。
机器之心:如果要建设百万卡集群,选择多家厂商的卡,还是只选择少数厂商甚至单独一家厂商的卡更好?
翟季冬:从管理和使用效能的角度来看,选择单一类型的加速卡无疑是最方便的。但实际情况往往更加复杂。例如,在美国,企业可能先购入1000张A100,后来又添置1000张H100。不同代际的加速卡存在性能差异,整合使用时会带来系统优化的挑战,而且这个问题在训练和推理场景下的表现也不尽相同。
从系统软件角度来看,这实际上是芯片碎片化的挑战。我目前正在负责一个项目,面向异构芯片的统一编程和编译优化。核心理念是,尽管底层使用不同的AI芯片,但在编程模型和编译优化层面要尽可能统一。我们希望同一套程序能在不同加速卡上都发挥出高效性能,同时降低不同加速卡间的移植成本。
很多人都说过,希望算力像水电一样成为基础设施。用电时我们不需要关心是风力发电还是煤炭发电。要实现这个目标,实际上还有很长的路要走,我们需要做好中间层的软件工作。此外,还要建立完善的算力度量标准,例如如何计算算力使用量,如何计价,这些都需要标准化。
在现阶段,我们还是需要关注底层硬件的具体情况。但未来的发展方向是,通过完善中间层的系统软件,为用户提供透明的接口。用户只需调用简单的API就能方便地使用各种算力资源,而不必关心底层细节。这可能是一个最终的发展方向。
机器之心:那我们把时间拉近一些,未来1-3年内,系统软件优化方面可能会出现哪些显著趋势或变化?
翟季冬:目前我国各省市建立了许多智算中心,以国产算力为主。我们观察到一个现象是,尽管应用开发者普遍缺乏算力资源,但许多国产算力中心却存在闲置现象。用户更倾向于使用NVIDIA这样开箱即用的解决方案。
这种情况实际上带来了重要的机遇:如何将巨大的算力需求与现有的国产算力有效对接?我们的目标是让国产算力达到同样的易用性,使用户感受不到差异。这不仅能促进人工智能在中国各行各业的发展,也能带动从芯片到软件再到应用的整体发展。
为此,我们实验室孵化了一家公司“清程极智”,致力于为国产闲置算力提供更友好的接口,帮助行业用户方便地整合各类国产算力资源。
从技术层面来看,这不仅仅是优化算子库那么简单。系统软件的完整建设应该包括编程语言、编译器、通信库、并行计算、编程框架,这些方向都需要投入。就像木桶效应一样,任何一个短板都可能影响芯片的整体使用效果。要充分发挥国产算力的性能,我们需要在这些方向全面发力,才能真正做好算力这一领域。
嘉宾简介
翟季冬,清华大学计算机系长聘教授,博士生导师,高性能计算研究所所长。青海大学计算机技术与应用学院院长。CCF高性能计算专委副主任、CCF杰出会员。清程极智首席科学家。
主要研究领域包括并行计算、编程模型与编译优化。在并行计算与系统领域顶级会议和期刊发表论文100余篇,出版专著一部。研究成果获IEEE TPDS 2021最佳论文奖、IEEE CLUSTER 2021最佳论文奖、ACM ICS 2021最佳学生论文奖等。担任清华大学学生超算团队教练,指导的团队15次获得世界冠军。获教育部科技进步一等奖、中国计算机学会自然科学一等奖、CCF-IEEE CS青年科学家奖、高校计算机专业优秀教师奖励计划。国家杰出青年科学基金获得者。