DeepSeek启示：算力优化新思路，系统软件成AI突围关键-AITOP100,AI资讯

2025年初，DeepSeek的突破性进展在全球AI领域引起广泛关注。在OpenAI斥巨资推进“星际之门”计划，Meta构建百万GPU级数据中心之际，这家中国团队仅用2048张H800 GPU，在短短两个月内训练出了媲美世界一流水平的大模型，打破了人们对大模型军备竞赛的固有认知。

DeepSeek下载地址》》》

这一成就不仅动摇了英伟达的万亿美元市值，更引发了整个行业对于人工智能发展路径的反思：在通往通用人工智能（AGI）的道路上，我们是否过度依赖算力规模，而忽略了更具务实性和创新潜力的发展方向？

与2023年“越大越好”的粗放式发展模式不同，2025年的AI发展或许将更像是一场精打细算的技术炼金术：如何以最少的资源实现模型效能最大化，如何在特定场景下达到极致效率？DeepSeek的案例已经展示了这种模式的强大威力——开发者们倾向于选择性价比更高的开源方案，当数以万计的应用都以DeepSeek为基础构建时，由此形成的生态将如何重塑AI产业格局？

本期《智者访谈》特邀清华大学计算机系长聘教授、高性能计算研究所所长翟季冬，深入探讨大模型时代的AI算力优化之道。翟季冬教授认为，DeepSeek能够实现百倍性价比提升，系统软件层面的深度创新功不可没。

“性能优化是一个永无止境的过程，”翟季冬教授指出，在中国面临算力资源挑战的大背景下，通过系统软件创新来提升算力效能，是产业突围的关键所在。这不仅需要在编程语言、编译器、通信库、编程框架等多个技术层面同时发力，更需要构建起一套完整的基础软件体系。

当下，一个值得深思的现象是：尽管AI算力需求持续增长，但国内众多智算中心的国产算力资源却存在闲置情况。供需错配的背后，暴露出我国基础软件体系存在的短板。

然而，困境也蕴藏着重大的发展机遇：如何打通从应用到系统软件，再到自主芯片的完整链路，探索出一条符合中国国情的发展路径？这既是一项技术创新，更是一项战略抉择。

在算力主导AI竞争力的时代，如何使每一份计算资源都能释放出最大价值，这个问题本身与答案同样重要。

时间戳

03:35 DeepSeek 与算力需求未来趋势

06:41 算力效能评估新视角

10:26 中美硬件差异下的软件思考

14:00 为何还没 Transformer 专用芯片

17:41 万卡集群训练难点

21:01 降本增效：推理优化的关键

24:41 Infra 如何为下一代大模型做好准备

27:19 大规模异构集群的算力管理

29:42 智算供需错配：系统软件如何补位

访谈文字整理

机器之心：翟季冬教授您好，欢迎来到机器之心的《智者访谈》。最近AI算力市场呈现出许多新趋势。首先，大家热议的焦点是，Scaling Law是否真的遇到了瓶颈？其次，随着OpenAI o1/o3模型的发布，通过增加推理计算时间也能显著提升模型性能，这也促使我们重新审视算力的使用方向。

可见，如何提高算力利用效率已成为业界日益关注的重点。我们非常荣幸能邀请到您，从系统软件的视角一同探讨算力优化之道。

DeepSeek 的启示：性能优化永无止境

翟季冬：谢谢主持人。很荣幸能有机会在机器之心与大家交流。Ilya Sutskever曾在论坛上提到，我们所知的Scaling Law已接近尽头。对此，我有一些看法。首先，互联网上高质量的文本数据确实日益减少，但多模态数据（如图片、视频）仍有巨大的挖掘空间，这将对未来的模型训练产生深远影响。

其次，以OpenAI o1/o3为代表的复杂推理系统，在后训练阶段采用了强化学习（RL）等技术，RL会生成大量新数据，这也导致算力需求持续增长。此外，目前训练一个基座模型可能需要数周甚至一两个月，如果拥有更多算力，或许几天就能完成预训练，这将极大提高后期的生产效率。最后，终端用户对性能（包括精度）的追求是永无止境的。

机器之心：DeepSeek公司最近在业界引发热议，他们以较低成本训练出了媲美国际顶尖水平的模型。您认为其提升的关键因素是什么？

翟季冬：首先是算法层面的创新。他们采用了新的MoE架构，运用共享专家和大量细粒度路由专家结构。通过将通用知识压缩到共享专家中，可以减少路由专家的参数冗余，提高参数效率；在保持参数总量不变的前提下，划分更多细粒度路由专家，通过灵活组合路由专家，有助于更准确、更有针对性地进行知识表达。同时，通过负载均衡的算法设计，有效缓解了传统MoE模型因负载不均衡带来的训练效率低下问题。

其次，在系统软件层面，DeepSeek进行了大量精细化的系统工程优化。例如，在并行策略方面，采用双向流水并行机制，通过精心排布，实现了计算与通信的重叠，有效降低了流水并行带来的气泡影响；在计算方面，采用FP8等混合精度进行计算，降低计算复杂度；在通信方面，采用低精度通信策略和token路由控制等机制，有效降低通信开销。

上述算法与软件创新优化，显著降低了模型的训练成本。DeepSeek的成功启示我们，如何在有限的算力条件下，通过算法与软件的协同创新，充分挖掘硬件的极致性能，这对中国未来人工智能发展至关重要。

从DeepSeek的案例中可以看出，大模型领域仍然存在巨大的改进空间。他们的创新涵盖了从算法、软件到系统架构的多个层面，为国内大模型的发展提供了很好的借鉴。

我长期从事高性能计算研究，我们一直追求应用程序的极致性能。之前我带领清华学生参加国际超算比赛时，每当拿到题目，我们都会深入思考：当发现负载的某些特性后，如何针对这些特性进行有效优化，可能带来几十倍、几百倍甚至上千倍的性能提升。可以说，性能优化是一个永无止境的过程。

在当前形势下，中国在算力资源方面面临巨大挑战。国外如微软、X公司等，投入了10万卡甚至更大规模的算力，在此基础上，他们可能将更多精力放在设计更好的模型上，极致的性能优化也许不是他们目前的重点。但当我们算力有限时，例如固定只有1万张加速卡，就需要思考如何更充分利用这些硬件，挖掘算法、系统，以及硬件等各方面的协同创新潜力。

机器之心：追求性能优化和模型创新这两种发展路线是否相互冲突？它们能否在同一阶段共存？

翟季冬：从系统软件层面来看，它与算法发展是解耦的。换句话说，这些优化技术同样适用于算力更充足的场景，在美国的研究环境中也可以应用，不会阻碍上层模型的发展。

机器之心：业界似乎还没有建立起一套客观评估算力利用效率的体系或标准。您认为应该如何科学、客观地评价算力利用率？

翟季冬：这是一个很棒的问题。目前一些科技报道经常提到“GPU利用率”这一指标，但要评估一个系统的性能，很难用单一指标来衡量，就像评价一个人不能只看单一维度一样。

具体而言，在大模型训练时，GPU利用率只是一个方面。在大型集群中，还包括网络设备、存储设备等。单纯追求GPU利用率很高，而网络利用效率或内存使用率很低，这并非最优状态。从系统软件优化的角度来看，我们需要追求整体均衡，可以通过提高网络和内存的利用率来适当降低GPU消耗。

评价标准也因场景而异。在训练场景中，我们更关注整个集群（包括加速卡、存储、网络、通信等）的整体利用效率。在推理场景中，终端用户更关心延迟，例如是否能在几毫秒内得到响应，除了第一个token的生成延迟，后续每个token之间的间隔时间也是关键指标；算力提供方则更关注整体吞吐量，例如1000张加速卡每天能处理多少请求，是每天能响应100万个请求，还是1000万个请求。

一个经常被忽视但非常重要的指标是成本，特别是每个token的处理成本。人们常说追求极致性能，但当我们将成本约束也纳入考虑时，对系统吞吐量和处理延迟的讨论才更具有现实意义。从长远来看，显著降低推理成本对于推广AI应用至关重要。

中美硬件差异下的算力突围

系统软件双向适配

机器之心：由于中美之间的硬件差异，大家非常关注软件栈层面是否会产生代际差异，甚至发展出不同的技术路线？

翟季冬：中国在系统软件方面确实面临着不同的思考方向。在美国和欧洲，AI基础设施主要以NVIDIA GPU为主，但在中国，很难获得最先进的NVIDIA算力。

NVIDIA GPU之所以受欢迎，很大程度上归功于其成熟的生态系统。我印象深刻的是，从我读书时期开始，NVIDIA就与清华等高校展开合作，探索如何更好地在他们的硬件上实现加速。他们现在的软件栈也是经过多年积累形成的。相比之下，中国的AI芯片公司大多始于近几年，发展历程不到十年。

我们还有很长的路要走，无论是在底层编译器优化芯片算力，还是在多卡互连的高效通信协同方面。中国面临双重挑战：一方面需要补齐短板，提升芯片易用性；另一方面，由于无法获取最先进的芯片制程工艺，可能落后国外一到两代。这使得软件与硬件的协同优化在中国显得更为重要，我们需要挖掘所有可能的优化空间。

机器之心：您认为我们应该如何应对NVIDIA建立的软件生态壁垒？

翟季冬：作为后来者，我们首先要学习他们在算子库、编程语言和编译器方面的先进理念。在不违反知识产权的前提下，我们可以借鉴这些成果，但不能完全照搬，而要有自己的思考。例如，在工艺制程落后的情况下，我们可以在软件栈方面做些什么？针对与NVIDIA不同的架构特点，我们是否可以进行自主创新？

如果能够打通从应用侧到系统软件，再到自主研发芯片的整条路径，我相信我们能找到一条适合中国现实环境的可行发展路线。

从学术角度来看，我们可以探索开发更出色的领域特定编程语言，让用户编写高层代码时能自动生成更高效的实现。这方面还有很大的探索空间，但要实现商业落地需要时间。

机器之心：谈到大模型算力优化，为什么还没有芯片厂商推出Transformer专用芯片？您如何看待这个趋势？

翟季冬：我认为现在没有并不代表将来不会有，可能有些公司正在朝这个方向努力。从芯片设计到流片再到封装，整个过程成本非常高，必须要有足够大的市场空间才能支撑这种特定架构。

如果大模型最终确实以Transformer架构为主，我们确实可以设计一款完全针对Transformer的专用芯片。但目前存在几个主要考虑：首先，AI模型发展非常迅速，我们无法确定Transformer架构是否会一直保持主流地位，可能还会出现新的非Transformer架构。其次，Transformer本身也在不断演化，比如MoE这类稀疏激活模型，以及多模态MoT（Mixture-of-Transformers）的稀疏特性，这些特性很难在芯片层面直接描述。

回顾最近一波AI发展，大约从2012年至今，最初以卷积神经网络为主，一些芯片公司专门为卷积设计了ASIC芯片。但到了2017年后，Transformer架构逐渐兴起，与卷积有很大差异，导致之前针对卷积优化的ASIC芯片难以适应新架构。

值得注意的是，在此过程中NVIDIA虽然也在其芯片架构中添加了各种新的硬件模块，但整体架构保持相对稳定，通过系统软件来适应应用的变化，例如他们的Tensor Core针对矩阵乘法进行优化，而不是专门为Transformer的某个组件（如Attention）设计特定架构。

机器之心：NVIDIA的做法能给我们带来什么启示？

翟季冬：从软件角度来说，最大的启示是以不变应万变。专用硬件的设计思路，本质上是将具体的算法用电路去实现，但设计的关键在于如何将这个具体的算法拆解成合适的、通用的基本硬件单元，以便各种应用都能通过这些基本单元来实现。例如，NVIDIA的Tensor Core是将各种操作都转换为矩阵乘法，这种映射方式相对更灵活。

拆解的核心在于粒度要恰到好处：粒度过大，小型应用难以有效利用硬件资源，造成浪费并降低性能；粒度过小，则会增加数据搬运和调度开销，降低整体效率，并增加硬件和软件的复杂度。这是一个需要权衡的设计选择。

机器之心：现在很多公司一方面投资现有基础设施购买各类计算卡，一方面也与高校合作并投资创业公司，以应对非Transformer架构带来的挑战。从系统软件层面来看，这种布局能在多大程度上应对下一代技术的冲击？

翟季冬：系统软件的本质是将上层应用程序更好地映射到底层硬件。一方面要关注应用层面的变化，比如现在多模态模型越来越重要，我们就需要思考多模态带来的新模式和负载特征，同时也要关注底层架构的演进，无论是NVIDIA GPU还是国产加速卡，都可能会增加新的计算单元或访存单元，我们需要思考如何更好地利用这些硬件特性。

系统软件的核心任务是密切关注上下层的变化，通过中间层的合理设计将两端匹配起来，让硬件效率发挥到极致。对于正在探索的新型模型，我们需要分析它们的负载特征，研究如何更好地映射到底层芯片以充分利用硬件资源。

从提前布局的角度来说，系统软件要做好新兴应用负载的分析。同时，当新的芯片架构出现时，系统软件也要及时做出相应的改进和适配。这种双向适配能力，是系统软件应对技术变革的关键。

万卡集群时代的算力优化

机器之心：您参与了多个基座大模型的训练，在使用万卡级集群方面拥有第一手经验，能否分享一下在这种超大规模训练中遇到的主要技术挑战？

翟季冬：2021年，我们与北京智源研究院等机构合作，使用新一代神威超算系统进行一个基座大模型的训练，可以将其理解为一个10万卡的集群。在这个过程中，我体会到大模型训练主要有以下几方面的挑战。

首先是并行策略的选择。由于模型很大，用10万台机器去做，就要将模型进行切分，就像将一块豆腐切成很多块，可以切成方块，也可以切成细条，原理是一样的。要把一个大模型分到10万台机器上，也有很多切分方式。用专业术语来讲，比如有数据并行、模型并行、流水线并行、序列并行等等，每个并行策略都有自己的优缺点。在10万台机器上，如何组合这些并行策略本身就是很大的挑战。而且10万规模的集群，没办法像单卡那样反复测试各种策略，一定要将策略分析清楚了才去跑，因为一次测试成本非常高，不允许做过多尝试。

第二个挑战是通信问题。10万台机器需要通过高速网络互连，但不同的机器组网方式不一样，网络拓扑也不同。大模型训练时有很多通信函数，这些通信函数如何与底层网络拓扑高效映射是一大挑战。我们发现，不同的通信策略可能导致1-2倍的性能差异。

第三个挑战是容错机制。当机器规模增大，整个系统的平均无故障时间就会非常短。基座模型训练通常需要数周到一两个月。我们必须设计轻量级的容错机制，在硬件出现故障时能快速替换出错的卡并继续训练，同时将开销降到最低。

最后，单卡性能也至关重要。在关注万卡、10万卡这类整体系统的同时，也要将单卡效率做到极致，例如通过编译优化等策略，确保每张卡都能发挥出最大性能。

机器之心：在提升算力利用率方面，我们应该关注哪些方面？

翟季冬：大模型的生命周期包含多个阶段，每个阶段对算力的需求都不同。我们刚才讨论了预训练，但在预训练模型完成后，还有一个很重要的阶段是后训练（post training）。以OpenAI o1/o3为代表的后训练技术，为整个训练过程带来了新的挑战。

后训练包括生成阶段、推理阶段和微调阶段，每个阶段的负载特点不同，最优的并行策略也会不同。需要注意的是，不能简单追求每个阶段的局部最优，因为阶段之间的切换也会产生开销。我们要从整个pipeline的角度来考虑优化策略。后训练还面临着负载不均衡的问题，需要探索如何有效重叠不同阶段以提高资源利用率。

在微调阶段，客户往往会用自己的私有数据对基座模型进行调整。由于硬件资源可能有限，这时需要考虑一些特殊的策略，比如offloading，即将GPU内存不足时，将部分参数存储在CPU端。微调本身作为一个训练过程，对并行策略也有很高的要求。

推理阶段的优化面临更多挑战：

KV Cache管理：推理过程会产生大量中间结果（KV Cache），用于降低计算量。如何管理这些数据非常关键，比如可以采用页面式管理，但页面大小是固定还是根据负载特征动态调整，都需要仔细设计。

多卡协同：当模型较大时需要多GPU配合，比如在8个GPU上进行大模型推理，如何优化卡间并行也是一个挑战。

算法优化：还可以从量化等角度进行优化，充分发挥底层算力性能。

总之，从预训练到后训练，再到微调和推理，每个阶段对算力的要求都不同，我们需要针对这些特点进行深入优化。

机器之心：如果要建设百万卡集群，选择多家厂商的卡，还是只选择少数厂商甚至单独一家厂商的卡更好？

翟季冬：从管理和使用效能的角度来看，选择单一类型的加速卡无疑是最方便的。但实际情况往往更加复杂。例如，在美国，企业可能先购入1000张A100，后来又添置1000张H100。不同代际的加速卡存在性能差异，整合使用时会带来系统优化的挑战，而且这个问题在训练和推理场景下的表现也不尽相同。

从系统软件角度来看，这实际上是芯片碎片化的挑战。我目前正在负责一个项目，面向异构芯片的统一编程和编译优化。核心理念是，尽管底层使用不同的AI芯片，但在编程模型和编译优化层面要尽可能统一。我们希望同一套程序能在不同加速卡上都发挥出高效性能，同时降低不同加速卡间的移植成本。

很多人都说过，希望算力像水电一样成为基础设施。用电时我们不需要关心是风力发电还是煤炭发电。要实现这个目标，实际上还有很长的路要走，我们需要做好中间层的软件工作。此外，还要建立完善的算力度量标准，例如如何计算算力使用量，如何计价，这些都需要标准化。

在现阶段，我们还是需要关注底层硬件的具体情况。但未来的发展方向是，通过完善中间层的系统软件，为用户提供透明的接口。用户只需调用简单的API就能方便地使用各种算力资源，而不必关心底层细节。这可能是一个最终的发展方向。

机器之心：那我们把时间拉近一些，未来1-3年内，系统软件优化方面可能会出现哪些显著趋势或变化？

翟季冬：目前我国各省市建立了许多智算中心，以国产算力为主。我们观察到一个现象是，尽管应用开发者普遍缺乏算力资源，但许多国产算力中心却存在闲置现象。用户更倾向于使用NVIDIA这样开箱即用的解决方案。

这种情况实际上带来了重要的机遇：如何将巨大的算力需求与现有的国产算力有效对接？我们的目标是让国产算力达到同样的易用性，使用户感受不到差异。这不仅能促进人工智能在中国各行各业的发展，也能带动从芯片到软件再到应用的整体发展。

为此，我们实验室孵化了一家公司“清程极智”，致力于为国产闲置算力提供更友好的接口，帮助行业用户方便地整合各类国产算力资源。

从技术层面来看，这不仅仅是优化算子库那么简单。系统软件的完整建设应该包括编程语言、编译器、通信库、并行计算、编程框架，这些方向都需要投入。就像木桶效应一样，任何一个短板都可能影响芯片的整体使用效果。要充分发挥国产算力的性能，我们需要在这些方向全面发力，才能真正做好算力这一领域。

嘉宾简介

翟季冬，清华大学计算机系长聘教授，博士生导师，高性能计算研究所所长。青海大学计算机技术与应用学院院长。CCF高性能计算专委副主任、CCF杰出会员。清程极智首席科学家。

主要研究领域包括并行计算、编程模型与编译优化。在并行计算与系统领域顶级会议和期刊发表论文100余篇，出版专著一部。研究成果获IEEE TPDS 2021最佳论文奖、IEEE CLUSTER 2021最佳论文奖、ACM ICS 2021最佳学生论文奖等。担任清华大学学生超算团队教练，指导的团队15次获得世界冠军。获教育部科技进步一等奖、中国计算机学会自然科学一等奖、CCF-IEEE CS青年科学家奖、高校计算机专业优秀教师奖励计划。国家杰出青年科学基金获得者。