AMD经常详细介绍已经发布了一段时间的产品。在Hot Chips 2024上,AMD详细介绍了Instinct MI300X。我们知道MI325X很快就会发布。尽管如此,这仍然是NVIDIA GPU之外唯一一个在AI行业每年销售达到数十亿美元的GPU。AMD上周刚刚收购了生产Microsoft Azure MI300X平台的ZT系统公司。
Hot Chips 2024上展示的AMD Instinct MI300X架构 #
AMD 的幻灯片看起来很不错,因此让大家阅读它们,并在讲解过程中添加一些色彩。
MI300A主要应用于惠普的El Capitan等超级计算机。看起来MI300X是今年该系列40多亿美元收入的主要来源。
AMD有一个有192MB的HBM3,用于计算等应用的multi-chiplet芯片:
这是AMD CDNA 3结构的演变:
AMD拥有8-stack HBM3内存阵列,容量达到192GB。
下面是用于计算的XCD、Infinity Cache、Infinity Fabric和8个HBM封装的框图。
下面是缓存和内存层次结构。我们不仅可以看到192GB的HBM3,还可以看到256MB的Infinity缓存,8*4MB的L2缓存等。
MI300X可以作为单个分区运行,也可以在不同的内存和计算分区中运行。
AMD目前的大平台是8路MI300X OAM平台。
这是Instinct系统路线图。MI200在OAM板上也看到了,但它为单个GPU。
以下是AMD对NVIDIA HGX平台的回答。
每个GPU有7条链路用于直接连接以及主机链路。
RAS在大规模AI集群中是一件大事。
这是AMD的服务器。微软/ ZT系统的MI300平台在这里没有提到。令人失望的是,戴尔仍然没有在其AI平台中提供EPYC。同样明显缺失的还有Wiwynn平台。
AMD谈论ROCm,它正在变得越来越好。
在某些情况下,AMD可以击败NVIDIA H100。当然,现在人们开始更频繁地部署NVIDIA H200,AMD方面也致力于MI325X。所以两家公司产品性能的对比可以交给时间来检验。
这是MPT微调,据AMD称和H100性能相当。
总结 #
MI300X是AMD 2023年的设计,现在它将与H100正面交锋,我们预计两者将在不久的将来被更高内存的版本所取代。据了解,该公司今年会推出MI325X,2025年将推出Instinct MI350 288GB GPU。
尽管如此,AMD凭借数十亿美元的产品线,已经巩固了自己在AI GPU领域仅次于NVIDIA的地位。