华为芯片设计

braket · 2025 年9 月 29 日 18:45

https://www.bloomberg.com/news/articles/2025-09-29/huawei-to-double-output-of-top-ai-chip-as-nvidia-wavers-in-china

https://archive.ph/20250929095828/https://www.bloomberg.com/news/articles/2025-09-29/huawei-to-double-output-of-top-ai-chip-as-nvidia-wavers-in-china

phy-dream · 2025 年9 月 29 日 18:58

看不了，还得subscribe

braket · 2025 年9 月 29 日 19:10

更新了免费链接

puffmolly · 2025 年9 月 29 日 22:26

其实就是华为CEO徐直军访谈的内容

核心要点是华为要用数量集群来超越Nvidia，类似于星际争霸的虫族。

从大型AI算力基础设施建设的技术方向看，超节点已经成为主导性产品形态，并正在成为AI基础设施建设的新常态。超节点事实上就是一台能学习、思考、推理的计算机，物理上由多台机器组成，但逻辑上以一台机器学习、思考、推理。

今年3月份，华为正式推出了Atlas 900超节点，满配支持384卡，最大算力可达300 PFLOPS。CloudMatrix384超节点，则是华为云基于Atlas 900超节点构建的云服务实例。Atlas 900超节点自上市以来，已经累计部署超过300套，服务20多个客户，涵盖互联网、电信、制造等多个行业。

结合已经推出或正在研发中的昇腾芯片，将带来更多超节点和集群产品。今天发布的第一款产品——Atlas 950超节点，是基于Ascend 950DT打造。

Atlas 950超节点支持8192张基于Ascend 950DT的昇腾卡，是Atlas 900超节点的20多倍，我们习惯称呼的昇腾卡，每张卡对应一颗Ascend 950DT芯片，8192张昇腾卡等同于8192颗Ascend 950DT芯片。

**Atlas 950超节点满配包括由128个计算柜、32个互联柜，共计160个机柜组成，占地面积1000平方米左右，柜间采用全光互联。**总算力大幅度提升，其中，FP8算力达到8E FLOPS，FP4算力达到16E FLOPS。互联带宽达到16PB/s，这个数字意味着，Atlas 950一个产品的总互联带宽，已经超过今天全球互联网峰值带宽的10倍有余。

Atlas 950超节点的上市时间是：2026年四季度。

我们很自豪的看到，Atlas 950超节点，至少在未来多年都将保持是全球最强算力的超节点，并且在各项主要能力上都远超业界主要产品。其中，相比英伟达同样将在明年下半年上市的NVL144，Atlas 950超节点卡的规模是其56.8倍，总算力是其6.7倍，内存容量是其15倍，达到1152TB；互联带宽是其62倍，达到16.3PB/s。即使是与英伟达计划2027年上市的 NVL576相比，Atlas 950超节点在各方面依然是领先的。

算力、内存容量、内存访问速度、互联带宽等能力的大幅度增强，为大模型训练性能和推理吞吐带来显著提升。相比华为已经推出的Atlas 900超节点，Atlas 950超节点的训练性能提升17倍，达到4.91M TPS。通过支持FP4数据格式，Atlas 950超节点的推理性能提升达26.5倍，达到19.6M TPS。

8192卡超节点并不是终点。今天发布的第二款超节点产品Atlas 960超节点，其基于Ascend 960，最大可支持15488卡。Atlas 960超节点由176个计算柜，44个互联柜，共220个机柜，占地面积约2200平方米。

Atlas 960超节点的上市时间是：2027年四季度。

基于Ascend 960，Atlas 960超节点总算力、内存容量、互联带宽在Atlas 950基础上再翻倍。其中，FP8总算力将达到30E FLOPS，而FP4总算力将达到60 EFLOPS；内存容量达到4460TB，互联带宽达到34PB/s。大模型训练和推理的性能相比Atlas 950超节点，将分别提升3倍和4倍以上，达到15.9M TPS 和80.5M TPS。

在通用计算领域，我们同样认为，超节点技术能够带来很大的价值。TaiShan 950超节点，基于Kunpeng 950打造，全球首个通用计算超节点，其最大支持16节点，32个处理器，最大内存48TB，同时支持内存、SSD、DPU池化。

超节点的价值，不仅仅体现在智算和通算传统业务领域。互联网产业广泛应用的推荐系统，正在从传统推荐算法向生成式推荐系统演进。我们可以基于TaiShan 950和Atlas 950打造成混合超节点，为下一代生成式推荐系统打开全新架构方向。

一方面，通过超大带宽、超低时延互联以及超大内存，混合超节点构成超大共享内存池，支持PB级推荐系统嵌入表，从而支撑超高维度用户特征；另一方面，混合超节点的超大AI算力，能够支持超低时延推理和特征检索。因此，混合超节点是面向下一代生成式推荐系统的解决方案的全新选择。

为了达成Atlas 950/960超节点对互联的技术要求，为了实现万卡超节点还能是一台计算机，华为开创了超节点架构并开创了新型的互联协议，能够支撑万卡级超节点架构。基于这个互联协议的超节点架构的核心价值主张是：万卡超节点，一台计算机，也就是说，通过该互联协议，把数万规模的计算卡，联接成一个超节点，能够像一台计算机一样工作、学习、思考、推理。

万卡级超节点架构应该具备6大特征，分别是总线级互联、平等协同、全量池化、协议归一、大规模组网、高可用性。我们为这个面向超节点的新型互联协议取名“灵衢”，英文名称：UB，UnifiedBus。今天，我们正式发布灵衢UnifiedBus，一个面向超节点的互联协议。

同时，华为将开放灵衢2.0技术规范，欢迎产业界伙伴基于灵衢研发相关产品和部件，共建灵衢开放生态。

接下来带来两个集群产品：首先是Atlas 950 SuperCluster 50万卡集群。

Atlas 950 SuperCluster集群由64个Atlas 950超节点互联组成，把1万多机柜中的52万多片昇腾950DT组成为一个整体，FP8总算力可达524 EFLOPS。上市时间与Atlas 950超节点同步，即2026年Q4。

在集群组网上，我们同时支持UBoE与RoCE两种协议，UBoE是把UB协议承载在以太网上，让客户能够利用现有以太交换机。相比传统RoCE，UBoE组网的静态时延更低、可靠性更高，交换机和光模块数量都更节省，所以，我们推荐UBoE。

Atlas 950 SuperCluster集群，相比当前世界上最大的集群 xAI Colossus，规模是其2.5倍，算力是其1.3倍，是当之无愧的全世界最强算力集群！无论是当下主流的千亿稠密、稀疏大模型训练任务，还是未来的万亿、十万亿大模型训练，超节点集群都可以成为性能强悍的算力底座，高效稳定地支持人工智能持续创新。

在2027年Q4，我们还将基于Atlas 960超节点，同步推出Atlas 960 SuperCluster，集群规模进一步提升到百万卡级，FP8总算力达到2 ZFLOPS，FP4总算力达到4 ZFLOPS。并且，它同样也支持UBoE与RoCE两种协议，在UBoE协议加持下，性能与可靠性同样更优，并且，静态时延和网络无故障时间优势进一步扩大，因此继续推荐UBoE组网。通过Atlas 960 SuperCluster，我们将持续加速客户应用创新，探索智能水平新高。