IM体育官方网站 SemiAnalysis 重磅拆解: Blackwell架构全细节, 英伟达从未公开的机要

IM体育官方网站 SemiAnalysis 重磅拆解: Blackwell架构全细节, 英伟达从未公开的机要

发布日期：2026-04-02 10:20 点击次数：112

IM体育官方网站 SemiAnalysis 重磅拆解: Blackwell架构全细节，英伟达从未公开的机要

英伟达BlackwellGPU代表了连年来最紧要的GPU微架构变革之一，但迄今枯竭详备的官方白皮书。

著名半导体连络机构SemiAnalysis历时数月，对Blackwell架构进行了系统性微基准测试，初次公开了该架构在AI职责负载下的硬件性能上限数据。

测试收尾走漏，Blackwell在张量中枢（TensorCore）微辞量、内存子系统领宽及新式2SMMMA辅导等重要维度上均接近表面峰值，但性能发扬高度依赖辅导体式设置，部分场景下存在明显的带宽瓶颈。这一发现对AI基础才能投资者和芯片采购方具有径直参考价值——架构后劲能否充分开释，取决于软件层面的密致调优。

SemiAnalysis已将关联基准测试代码库开源，测试所用B200节点由Nebius和Verda提供。连络团队同期通知，后续将推广至TPUPallas内核、TrainiumNKI内核及AMDCDNA4汇编的基准测试。

架构中枢变化：TMEM引入与2SMMMA

从Hopper到Blackwell，英伟达对MMA关联辅导的PTX轮廓层进行了多项热切调养。

最显耀的变化是引入了张量内存（TMEM）用于存储MMA累加器。在此前架构中，线程隐式捏有MMA运算收尾；Blackwell改为由软件在MMA作用域内显式管束TMEM，改变了线程与盘算收尾之间的悉数权关系。

与此同期，tcgen05操作当今由单一线程代表悉数这个词CTA（合作线程阵列）发出，而非此前Hopper架构中以warp或warpgroup为单元发出。这一变化在CuTeMMA原子中有径直体现：Blackwell使用ThrID=Layout，而Hopper使用ThrID=Layout。

Blackwell还引入了TPC作用域的TMA和MMA，维持两个协同CTA跨SM对试验tcgen05.mma，分享操作数，从而在裁减每个CTA分享内存带宽需求的同期，提供更高运算强度的MMA辅导。此外，该架构原生维持带微缩放的亚字节数据类型，并引入了集群启动收尾（CLC）手脚捏久化CTA内核中动态职责更正的硬件维持。

芯片物理布局：双Die架构与300周期跨Die蔓延

SemiAnalysis通过逆向工程妙技，滚球(中国)官网app揭示了B200芯片的物理拓扑结构。

连络团队讹诈PTX%%smid辅导，通过启动不同大小的集群来反向揣测SM到GPC（图形处理集群）的映射关系。收尾走漏，B200存在部分TPC独占逻辑GPC的情况，这些TPC从不与其他TPC协同更正。

通过让每个SM遍历填满L2缓存的指针跟踪数组并测量各SM间的看望蔓延，连络团队构建了SM间距离矩阵。矩阵了了呈现出两组SM，平均L2看望蔓延差距卓绝300个时钟周期，对应的恰是两个Die之间的跨Die看望处分。

基于此，连络团队揣测B200的Die级TPC散布如下：

这一物理布局互异意味着，即便逻辑设置疏通的两块GPU，其物理SM散布也可能不同，组成潜在的性能非详情趣起首。

内存子系统：LDGSTS与TMA的性能边界

内存子系统测试聚焦于两类异步拷贝辅导：LDGSTS（异步拷贝）和TMA（张量内存加快器）。

LDGSTS方面，测试遮盖了FlashInfer多头留心力（MHA）内核的典型设置。收尾走漏，IM体育官方网站LDGSTS内存微辞量在32KiB在途字节时富有，峰值约为6.6TB/s。16字节加载在疏通在途字节数下略优于8字节加载，且破钞更少试验资源。蔓延测试走漏，LDGSTS基线蔓延约为600纳秒，在途字节卓绝8KiB后蔓延接近翻倍，原因在于大皆线程因MIO（内存输入输出）节流而停滞。

TMA方面，峰值微辞量的达到明显晚于LDGSTS。在低于32字节在途数据时，异步拷贝微辞量略优于TMA；卓绝该阈值后TMA追上并可捏续推广至128KiB。蔓延方面，在途数据低于12KiB时异步拷贝蔓延略低，超事后TMA蔓延大幅攀升。

TMA多播测试走漏，显式TMA多播可无缺铲除L2流量，已毕理思的"1/集群大小"L2字节比。隐式多播（各CTA孤独发出TMA加载至疏通数据）在灵验内存微辞量上与显式多播非常，但在卓绝64字节在途数据后，L2缓存流量削减成果驱动着落。

张量中枢肠能：体式依赖性显耀，2SMMMA已毕无缺弱推广

张量中枢测试是本次连络的中枢部分，收尾揭示了BlackwellMMA性能对辅导体式的高度敏锐性。

微辞量方面，关于1SMMMA，M=64的设置最高仅能达到表面峰值的50%，而M=128可接近100%。这阐发M=64仅讹诈了一半数据通路。关于2SMMMA，M=128在N=64时微辞量为峰值的90%，其余N尺寸均接近100%；M=256则在悉数设置下均看护接近100%的峰值微辞量，因为M=256等效于每SM处理M=128，可充分讹诈完整数据通路。

AB布局影响相似显耀。当两个输入矩阵均存储于分享内存（SS时势）时，M=128在N

2SMMMA已毕了无缺的弱推广，相干于1SMMMA在使用两倍盘算资源时得到2倍加快。在SS时势的小体式设置下，由于操作数B在两个SM间分片，以致出现卓绝2倍的加快。连络论断明确：应永恒使用给定SMEMtile尺寸下可用的最大辅导体式，以得到最高微辞量

蔓延方面，悉数设置下蔓延均随N从64增至128线性增长，N=256时出现高出。数据类型蔓延排序呈现律例性：S8

本色在途辅导数测试走漏IM体育官方网站，在典型内核使用的1至4条在途MMA辅导场景下，4条在途MMA的微辞量上限约为表面峰值的78%至80%，且1SMMMA比2SMMMA高出约5个百分点。

杏彩(XingCai)官网平台

IM体育官方网站 SemiAnalysis 重磅拆解: Blackwell架构全细节, 英伟达从未公开的机要

热点资讯

推荐资讯