AMD推出MI325 X，这是一款288 GB人工智能加速器，旨在对抗Nvidia的H200--商业世界网

首页 > 科技 » 正文

AMD推出MI325 X，这是一款288 GB人工智能加速器，旨在对抗Nvidia的H200

Tobias Mann 2024-06-03

这一消息发布之际，AMD正在效仿NVIDIA的模式，并过渡到每年发布一系列加速器的节奏.

在今年晚些时候，Computex AMD的旗舰AI加速器MI325X上市时，将获得高带宽提升.

至少从我们可以看出的是，Instsitive MI325X与NVIDIA的H200非常相似，因为它是HBM3e增强版本，我们在2023年12月AMD的Advance AI活动中详细介绍了它的GPU.

但该部件是我们迄今看到的最复杂的部件之一-由8个计算芯片、4个I/O芯片和8个内存芯片组成，使用2.

5D和3D封装技术的组合缝合在一起.

从我们所看到的情况来看，支持即将到来的芯片的CDNA 3 GPU瓷砖似乎没有发生重大变化-至少在失败方面没有变化.

该芯片仍然拥有1.

3千万亿次的密集BF/FP16性能，或者当下降到FP8时，2.

6千万亿次浮点的性能.

需要明确的是，在任何给定的精度上，MI325X仍然比H200快.

AMD的重点似乎是扩大其相对于Nvidia的内存优势.

发布时，192 GB的MI300X拥有H100 HBM3的两倍多，比即将推出的H200有51 GB的优势.

MI325X将加速器的容量提高到288 GB--是H200的两倍多，比NVIDIA在今年春天的GTC上展示的Blackwell芯片高出50%.

转向HBM3e还将MI325X的内存带宽提高到6TB/秒.

虽然MI300X的5.

3TB/秒和H200的1.

3倍都有不错的提升，但我们原本预计这个数字会接近8TB/秒-就像我们在NVIDIA的Blackwell图形处理器上看到的那样.

不幸的是，我们必须等到MI325X在今年晚些时候上市才能知道它的内存配置是怎么回事.

内存容量和带宽都已经成为人工智能推理的主要瓶颈.

正如我们多次讨论的那样，当以8位精度运行时，每10亿个参数需要大约1 GB的内存.

因此，你应该能够将2500亿个参数塞到一个MI325X上--或者更接近于8个GPU系统的2T十亿参数模型--并且仍然有空间缓存关键值.

除了在Computex之前的预报会上，AMD的高管吹嘘说，它的MI325X系统可以支持1万亿个参数模型.

那是怎么回事呢？AMD仍然专注于FP16，它每个参数需要的内存是FP8的两倍.

尽管在推出时，对FP8的硬件支持是MI300X的主要卖点，但AMD在其基准测试中通常专注于半精度性能.

去年年底，在与NVIDIA就AMD基准的准确性发生争执时，我们明白了其中的原因.

对于它的许多基准测试，AMD依赖于vLLM--一个推理库，它还没有对FP8数据类型提供可靠的支持.

这意味着为了进行推断，MI300X只能使用FP16.

本文标签：