AMD推出MI325 X,这是一款288 GB人工智能加速器,旨在对抗Nvidia的H200
这一消息发布之际,AMD正在效仿NVIDIA的模式,并过渡到每年发布一系列加速器的节奏.
在今年晚些时候,Computex AMD的旗舰AI加速器MI325X上市时,将获得高带宽提升.
至少从我们可以看出的是,Instsitive MI325X与NVIDIA的H200非常相似,因为它是HBM3e增强版本,我们在2023年12月AMD的Advance AI活动中详细介绍了它的GPU.
但该部件是我们迄今看到的最复杂的部件之一-由8个计算芯片、4个I/O芯片和8个内存芯片组成,使用2.
5D和3D封装技术的组合缝合在一起.
从我们所看到的情况来看,支持即将到来的芯片的CDNA 3 GPU瓷砖似乎没有发生重大变化-至少在失败方面没有变化.
该芯片仍然拥有1.
3千万亿次的密集BF/FP16性能,或者当下降到FP8时,2.
6千万亿次浮点的性能.
需要明确的是,在任何给定的精度上,MI325X仍然比H200快.
AMD的重点似乎是扩大其相对于Nvidia的内存优势.
发布时,192 GB的MI300X拥有H100 HBM3的两倍多,比即将推出的H200有51 GB的优势.
MI325X将加速器的容量提高到288 GB--是H200的两倍多,比NVIDIA在今年春天的GTC上展示的Blackwell芯片高出50%.
转向HBM3e还将MI325X的内存带宽提高到6TB/秒.
虽然MI300X的5.
3TB/秒和H200的1.
3倍都有不错的提升,但我们原本预计这个数字会接近8TB/秒-就像我们在NVIDIA的Blackwell图形处理器上看到的那样.
不幸的是,我们必须等到MI325X在今年晚些时候上市才能知道它的内存配置是怎么回事.
内存容量和带宽都已经成为人工智能推理的主要瓶颈.
正如我们多次讨论的那样,当以8位精度运行时,每10亿个参数需要大约1 GB的内存.
因此,你应该能够将2500亿个参数塞到一个MI325X上--或者更接近于8个GPU系统的2T十亿参数模型--并且仍然有空间缓存关键值.
除了在Computex之前的预报会上,AMD的高管吹嘘说,它的MI325X系统可以支持1万亿个参数模型.
那是怎么回事呢?AMD仍然专注于FP16,它每个参数需要的内存是FP8的两倍.
尽管在推出时,对FP8的硬件支持是MI300X的主要卖点,但AMD在其基准测试中通常专注于半精度性能.
去年年底,在与NVIDIA就AMD基准的准确性发生争执时,我们明白了其中的原因.
对于它的许多基准测试,AMD依赖于vLLM--一个推理库,它还没有对FP8数据类型提供可靠的支持.
这意味着为了进行推断,MI300X只能使用FP16.