首页 > 科技 » 正文

AMD推出MI325 X,这是一款288 GB人工智能加速器,旨在对抗Nvidia的H200

 Tobias Mann

这一消息发布之际,AMD正在效仿NVIDIA的模式,并过渡到每年发布一系列加速器的节奏.

在今年晚些时候,Computex AMD的旗舰AI加速器MI325X上市时,将获得高带宽提升.

至少从我们可以看出的是,Instsitive MI325X与NVIDIA的H200非常相似,因为它是HBM3e增强版本,我们在2023年12月AMD的Advance AI活动中详细介绍了它的GPU.

但该部件是我们迄今看到的最复杂的部件之一-由8个计算芯片、4个I/O芯片和8个内存芯片组成,使用2.

5D和3D封装技术的组合缝合在一起.

从我们所看到的情况来看,支持即将到来的芯片的CDNA 3 GPU瓷砖似乎没有发生重大变化-至少在失败方面没有变化.

该芯片仍然拥有1.

3千万亿次的密集BF/FP16性能,或者当下降到FP8时,2.

6千万亿次浮点的性能.

需要明确的是,在任何给定的精度上,MI325X仍然比H200快.

AMD的重点似乎是扩大其相对于Nvidia的内存优势.

发布时,192 GB的MI300X拥有H100 HBM3的两倍多,比即将推出的H200有51 GB的优势.

MI325X将加速器的容量提高到288 GB--是H200的两倍多,比NVIDIA在今年春天的GTC上展示的Blackwell芯片高出50%.

转向HBM3e还将MI325X的内存带宽提高到6TB/秒.

虽然MI300X的5.

3TB/秒和H200的1.

3倍都有不错的提升,但我们原本预计这个数字会接近8TB/秒-就像我们在NVIDIA的Blackwell图形处理器上看到的那样.

不幸的是,我们必须等到MI325X在今年晚些时候上市才能知道它的内存配置是怎么回事.

内存容量和带宽都已经成为人工智能推理的主要瓶颈.

正如我们多次讨论的那样,当以8位精度运行时,每10亿个参数需要大约1 GB的内存.

因此,你应该能够将2500亿个参数塞到一个MI325X上--或者更接近于8个GPU系统的2T十亿参数模型--并且仍然有空间缓存关键值.

除了在Computex之前的预报会上,AMD的高管吹嘘说,它的MI325X系统可以支持1万亿个参数模型.

那是怎么回事呢?AMD仍然专注于FP16,它每个参数需要的内存是FP8的两倍.

尽管在推出时,对FP8的硬件支持是MI300X的主要卖点,但AMD在其基准测试中通常专注于半精度性能.

去年年底,在与NVIDIA就AMD基准的准确性发生争执时,我们明白了其中的原因.

对于它的许多基准测试,AMD依赖于vLLM--一个推理库,它还没有对FP8数据类型提供可靠的支持.

这意味着为了进行推断,MI300X只能使用FP16.

本文标签:
思科的紧急呼叫者可能会将急救人员发送到错误的地点
以新质生产力赋能企业采购供应链,新点软件助推采购供应链高质量发展