塔斯娱乐资讯网

中美之间的算力差距到底有多大? 根据公开的行业统计,中国总算力规模稳居全球第二

中美之间的算力差距到底有多大?

根据公开的行业统计,中国总算力规模稳居全球第二,占全球市场两到三成,和美国咬得很紧。

但只要你把目光锁定在人工智能训练最烧钱的那种尖端算力,也就是用英伟达顶级显卡堆起来的智算集群上,差距立马就显现出来了。

差距的源头非常简单,就是芯片。

目前全球能大规模支撑前沿大模型训练的加速卡,几乎被英伟达一家给包圆了。

从A100到H100,再到后来的H200、B200,这些卡不但性能吊打其他同类产品,还因为有一个叫CUDA的软件生态,让全球的人工智能开发者都主动或被动的绑在了英伟达的战车上。

这些芯片的核心制造工艺仰仗台积电,设计工具用到美国技术,所以美国一纸出口管制,直接切断了高端GPU流入中国大陆的渠道。

这个过程很多人都有印象,2022年先禁了A100和H100,英伟达就搞出A800和H800来绕开限制,主要阉割了卡与卡之间的高速互联带宽,H800的NVLink带宽被砍到了A100时代的水平,让大规模并行训练的效率打了折扣。

结果到2023年10月,老美再次加码,连这些特供版也一并禁了。此后英伟达为了不丢掉中国市场这块肥肉,又鼓捣出了完全合规的H20、L20等芯片。

H20的纸面算力只有H100的百分之十五左右,显存倒是给到了96GB,但总体上说,它更适合做大模型推理,不太适合从头预训练一个万亿参数级的巨型模型。

你看这个管制一步步加码,就让国内公司能获得的顶级训练算力极度受限。

没办法,国内大厂和初创企业只能走两条路,一是继续用之前囤下的高端存货精打细算,二是加速切换到国产芯片。

华为的昇腾系列自然被推到最前线。

昇腾910B自2023年下半年起逐步放量,它的半精度浮点算力与A100大致相当,随后在2024年推出的昇腾910C更进一步,性能与H100的单卡差距进一步缩小。

华为云和合作伙伴基于数千张昇腾卡构建集群,成功支持了科大讯飞星火大模型、鹏城实验室的系列模型训练,官方披露的训练效率能接近A100方案的九成。

可问题不在单卡性能,而在软件生态。

全世界的深度学习框架和模型代码几乎都是围绕CUDA写的,突然要迁移到华为的昇思MindSpore框架或适配CANN算子库,相当于把房子换个地基,大量的底层代码需要重写,算子需要重新调试,显存管理逻辑也要改。

开发者社区里普遍反映,迁移成本不低,训练过程中遇到的一些隐性bug,花的时间比预期多不少。

这就意味着,即使国产卡的硬件算力上来了,由于软件适配和生态的成熟度差距,实际产出效率还是得打一个折扣,算下来有效算力进一步被拉低。

不过事情也不是一边倒。

国内有一个美国没有的优势,那就是庞大的内需市场和应用场景。

中国的移动互联网、智能制造、自动驾驶、智慧城市,这些领域对算力的消耗巨大,其中绝大部分需求属于推理计算。

而推理计算对芯片的要求比训练低不少,H20、L20这类特供芯片以及国产的寒武纪、海光、昇腾推理卡完全能够胜任,甚至因为显存大,部分场景比英伟达的高端卡还划算。

所以你会发现,虽然训练前沿模型我们吃点亏,但在真正落地的应用端,中国人工智能服务的覆盖面和使用体验一点不差,甚至因为场景磨砺,在推荐算法、图像识别、语音交互上比美国还强。

此外,过去两年国家主导的“东数西算”工程已经把算力当成像水电气一样的基础设施来建设。多个西部省份建起了超大型数据中心,里面开始成规模地部署国产智能计算芯片。

2025年,一些城市的智算中心算力规模已经达到数千PFLOPS,能够同时支撑几百家企业的训练和推理任务。

这种举国体制的力量,让算力的底座在慢慢夯实。

与此同时,国内的服务器制造和液冷散热产业链已经做到全球领先,美国搭建十万卡集群,也得从中国采购大量的光模块和制冷设备。双方在产业链上是相互缠绕的,谁也没法完全甩开谁。

所以回到最初的问题,中美之间的算力差距到底有多大。

简单说,在最尖端的、支撑下一代通用人工智能训练的那部分算力上,差距是明显的,存在一个数量级的落后,核心卡点就在于能拿到什么级别的芯片以及有多少张。

但在通用算力、超算和推理算力这些更宽泛的层面,差距要小得多,甚至互有胜负。

这种结构性的差距意味着短期内没法在模型参数量的军备竞赛上直接硬拼,但可以凭借算法优化、数据质量提升和应用创新来打差异化。

而且随着国内半导体产业链一点点补课,这种差距的绝对值正在逐步缩小,只不过还需要时间和耐心。