cuda - 塔斯娱乐资讯网

中美之间的算力差距到底有多大？根据公开的行业统计，中国总算力规模稳居全球第二

2026-06-04 17:03 芸仪阿搜

中美之间的算力差距到底有多大？根据公开的行业统计，中国总算力规模稳居全球第二，占全球市场两到三成，和美国咬得很紧。但只要你把目光锁定在人工智能训练最烧钱的那种尖端算力，也就是用英伟达顶级显卡堆起来的智算集群上，差距立马就显现出来了。差距的源头非常简单，就是芯片。目前全球能大规模支撑前沿大模型训练的加速卡，几乎被英伟达一家给包圆了。从A100到H100，再到后来的H200、B200，这些卡不但性能吊打其他同类产品，还因为有一个叫CUDA的软件生态，让全球的人工智能开发者都主动或被动的绑在了英伟达的战车上。这些芯片的核心制造工艺仰仗台积电，设计工具用到美国技术，所以美国一纸出口管制，直接切断了高端GPU流入中国大陆的渠道。这个过程很多人都有印象，2022年先禁了A100和H100，英伟达就搞出A800和H800来绕开限制，主要阉割了卡与卡之间的高速互联带宽，H800的NVLink带宽被砍到了A100时代的水平，让大规模并行训练的效率打了折扣。结果到2023年10月，老美再次加码，连这些特供版也一并禁了。此后英伟达为了不丢掉中国市场这块肥肉，又鼓捣出了完全合规的H20、L20等芯片。H20的纸面算力只有H100的百分之十五左右，显存倒是给到了96GB，但总体上说，它更适合做大模型推理，不太适合从头预训练一个万亿参数级的巨型模型。你看这个管制一步步加码，就让国内公司能获得的顶级训练算力极度受限。没办法，国内大厂和初创企业只能走两条路，一是继续用之前囤下的高端存货精打细算，二是加速切换到国产芯片。华为的昇腾系列自然被推到最前线。昇腾910B自2023年下半年起逐步放量，它的半精度浮点算力与A100大致相当，随后在2024年推出的昇腾910C更进一步，性能与H100的单卡差距进一步缩小。华为云和合作伙伴基于数千张昇腾卡构建集群，成功支持了科大讯飞星火大模型、鹏城实验室的系列模型训练，官方披露的训练效率能接近A100方案的九成。可问题不在单卡性能，而在软件生态。全世界的深度学习框架和模型代码几乎都是围绕CUDA写的，突然要迁移到华为的昇思MindSpore框架或适配CANN算子库，相当于把房子换个地基，大量的底层代码需要重写，算子需要重新调试，显存管理逻辑也要改。开发者社区里普遍反映，迁移成本不低，训练过程中遇到的一些隐性bug，花的时间比预期多不少。这就意味着，即使国产卡的硬件算力上来了，由于软件适配和生态的成熟度差距，实际产出效率还是得打一个折扣，算下来有效算力进一步被拉低。不过事情也不是一边倒。国内有一个美国没有的优势，那就是庞大的内需市场和应用场景。中国的移动互联网、智能制造、自动驾驶、智慧城市，这些领域对算力的消耗巨大，其中绝大部分需求属于推理计算。而推理计算对芯片的要求比训练低不少，H20、L20这类特供芯片以及国产的寒武纪、海光、昇腾推理卡完全能够胜任，甚至因为显存大，部分场景比英伟达的高端卡还划算。所以你会发现，虽然训练前沿模型我们吃点亏，但在真正落地的应用端，中国人工智能服务的覆盖面和使用体验一点不差，甚至因为场景磨砺，在推荐算法、图像识别、语音交互上比美国还强。此外，过去两年国家主导的“东数西算”工程已经把算力当成像水电气一样的基础设施来建设。多个西部省份建起了超大型数据中心，里面开始成规模地部署国产智能计算芯片。2025年，一些城市的智算中心算力规模已经达到数千PFLOPS，能够同时支撑几百家企业的训练和推理任务。这种举国体制的力量，让算力的底座在慢慢夯实。与此同时，国内的服务器制造和液冷散热产业链已经做到全球领先，美国搭建十万卡集群，也得从中国采购大量的光模块和制冷设备。双方在产业链上是相互缠绕的，谁也没法完全甩开谁。所以回到最初的问题，中美之间的算力差距到底有多大。简单说，在最尖端的、支撑下一代通用人工智能训练的那部分算力上，差距是明显的，存在一个数量级的落后，核心卡点就在于能拿到什么级别的芯片以及有多少张。但在通用算力、超算和推理算力这些更宽泛的层面，差距要小得多，甚至互有胜负。这种结构性的差距意味着短期内没法在模型参数量的军备竞赛上直接硬拼，但可以凭借算法优化、数据质量提升和应用创新来打差异化。而且随着国内半导体产业链一点点补课，这种差距的绝对值正在逐步缩小，只不过还需要时间和耐心。

COMPUTEX2026，老黄又干了一件大事。他掏出了一颗叫RTXSpa

2026-06-04 09:18 苹苹谈世界科技

两大芯片巨头互攻128GB统一内存，它意味着你桌上一台轻薄本，能在本地直接跑起

2026-06-02 11:43 惜海评科技

梁文峰称英伟达显卡没技术英伟达的护城河是CUDA，如果他是单拎出显卡这个硬件来说

2026-05-31 16:04 羽度非凡呀

梁文峰称英伟达显卡没技术英伟达的护城河是CUDA，如果他是单拎出显卡这个硬件来说，也可以理解。

打破十年垄断！DeepSeek落地昇腾生态，国产AI实现关键突围过去十多年，英

2026-05-30 11:33 璐璐定力写真

掀桌突破！梁文锋放弃英伟达CUDA，DeepSeek全面适配华为昇腾芯片，这

2026-05-29 18:59 红楼背疏影

2026年5月27日，DeepSeek创始人梁文锋带领团队耗时五个月，将V4万亿

2026-05-28 18:27 托克科普

2026年4月，一个名叫梁文锋的广东湛江80后，让硅谷大佬们集体睡不着觉了。

2026-05-27 11:39 聊几句

2026年4月，一个名叫梁文锋的广东湛江80后，让硅谷大佬们集体睡不着觉了。他带领的DeepSeek团队，干了一件近乎“疯狂”的事，花了五个月时间，把1.6万亿参数的大模型底层代码，硬生生从英伟达的CUDA迁移到了华为昇腾架构上。这不是小修小补，是全栈重写。一位参与迁移的工程师打了个比喻：“难度大概相当于在飞机飞行过程中，把发动机拆下来换掉。”整个工程重写了40万行算子，精度对齐误差控制在0.5%以内。这么多年，大家都觉得离了英伟达的芯片就玩不转AI。美国守着算力这张底牌，以为谁也翻不了天。梁文锋偏不信这个邪。他直接拉上华为和国内另外七家芯片厂商，模型和国产芯片同步研发、同步上线。从CUDA到CANN，从跟随到领跑，这一换，直接把美国守了十几年的算力底牌撕开了一道口子。黄仁勋是真的坐不住了。他在媒体访谈中罕见发飙，当众反驳“芯片是浓缩铀不该出口给中国”的说法，警告过度限制，只会逼中国建立完整的自主生态。这话翻译过来就是：你们再逼下去，他们真不用我们了。而事实确实如此。DeepSeekV4适配的华为昇腾950PR芯片，单卡算力是英伟达对华特供版H20的2.87倍，采购价格却只有H200的三分之一到四分之一。消息一出，阿里巴巴、字节跳动、腾讯等大厂立刻向华为追加了数十万颗昇腾芯片订单。最狠的是，梁文锋压根不给资本指手画脚的机会。他直接和间接持有公司约84.29%的股权，拥有几乎100%的表决权。别人融资是为钱低头，他是让资本陪跑。有人说他是“比任正非更危险的男人”，也有人说他冒着自己沦为二流大模型的风险，给中国AI趟路。但他只说了一句大实话：“别人的地基再稳，也不如自己的踏实。”从通信到AI，从任正非到梁文锋，中国人被卡脖子的地方，迟早要长出自己的力量。这条路，已经趟出来了。欢迎大家点赞、评论、转发，让更多人看到！