1530 亿颗晶体管，AMD 甩出最强 AI 芯片，单个 GPU 跑大模型

观点

2023

06/14

12:31

亚设网

专为生成式 AI 设计的 GPU：HBM 密度是英伟达 H100 的 2.4 倍，带宽是英伟达 H100 的 1.6 倍。

作者 | ZeR0

编辑 | 漠影

芯东西 6 月 14 日报道，今日凌晨，英伟达的头号劲敌 AMD，终于放出了令人期待已久的 AI 大招。

2014 年，苏姿丰成为 AMD CEO 时，这家芯片企业正濒临生存危机，裁员约 1/4，股价徘徊在 2 美元。随后在苏姿丰的掌舵之下，AMD 完成了漂亮的转身，9 年来股价飙升近 30 倍，对英伟达和英特尔两家顶级芯片巨头形成了制衡。

随着生成式 AI 飓风席卷全球，英伟达 GPU 被各家大厂争相抢购，焦点很快转移到 AMD 身上 ——AMD 能否生产出足够强大的 AI 芯片来打破英伟达近乎垄断的市场地位，抓住新一波 AI 浪潮？

今日，AMD 交出阶段性答卷。

在展示下一代 AI 芯片 MI300X 加速器时，苏姿丰满面笑容地说：“我爱这颗芯片”。

MI300X 是一个纯 GPU 版本，采用 AMD CDNA 3 技术，使用多达 192 GB 的 HBM3 高带宽内存来加速大型语言模型和生成式 AI 计算。

AMD 主要客户将在第三季度开始试用 MI300X，第四季度开始全面生产。另一种型号 Instinct MI300A 现在正在向客户发售。

苏姿丰说，人工智能是 AMD“最大、最具战略意义的长期增长机会”。

现场，AMD 与明星 AI 独角兽企业 Hugging Face 宣布了一项新的合作伙伴关系，为 AMD 的 CPU、GPU 和其他 AI 硬件优化他们的模型。

除了 AI 芯片外，AMD 还推出专为云计算和超大规模用户设计的全新 EPYC 服务器处理器，代号为 Bergamo，每个插槽最多包含 128 个内核，并针对各种容器化工作负载进行了优化。

亚马逊旗下云计算部门 AWS、甲骨文云、Meta、微软 Azure 的高管均来到现场，分享在其数据中心使用 AMD 芯片及软件的感受。

01.加速生成式 AI：192GB HBM3，单个 GPU 跑大模型

此前，AMD Instinct GPU 已经被许多世界上最快的超级计算机采用。

MI300X 加速器是 AMD Instinct MI300 系列的新成员，提供一个仅有 GPU 配置的芯片版本。

MI300X 及其 CDNA 架构专为大型语言模型和其他先进 AI 模型而设计，将 12 个 5nm chiplets 封装在一起，共有 1530 亿颗晶体管。

这款全新 AI 芯片舍弃了 APU 的 24 个 Zen 内核和 I / O 芯片，转而采用更多的 CDNA 3 GPU 和更大的 192GB HBM3，提供 5.2 TB / s 的内存带宽和 896GB/s的无限带宽。

MI300X 的 HBM 密度是英伟达 H100 的 2.4 倍，带宽是英伟达 H100 的 1.6 倍，这意味着 AMD 可以运行比英伟达芯片更大的模型。

AMD 演示了在单个 MI300X GPU 上运行拥有 400 亿个参数的 Falcon-40B 大型语言模型，让它写了一首关于旧金山的诗。

“模型尺寸变得越来越大，你需要多个 GPU 来运行最新的大型语言模型，”苏姿丰说，随着 AMD 芯片上内存增加，开发者将不需要那么多 GPU。

另一款 MI300A 被苏姿丰称作“面向 AI 和高性能计算的全球首款 APU 加速器”，将多个 CPU、GPU 和高带宽内存封在一起，在 13 个 chiplets 上拥有 1460 亿颗晶体管。

MI300A 采用 5nm 和 6nm 制程、CDNA 3 GPU 架构，搭配 24 个 Zen 4 核心、128GB HBM3，相比 MI250 提供了 8 倍以上的性能和 5 倍以上的效率。

AMD 还公布了一种 AMD Infinity 架构。该架构将 8 个 MI300X 加速器连接在一个考虑了 AI 推理和训练的标准系统中，提供共 1.5TB HBM3 内存。

据台媒报道，AMD 的 Instinct MI300 系列以及英伟达的 H100 / H800 系列 GPU 都在采用台积电先进的后端 3D 封装方法 CoWoS，导致台积电 CoWoS 产能短缺将持续存在。台积电目前有能力每月处理大约 8000 片 CoWoS 晶圆，其中英伟达和 AMD 合计占了大约 70% 到 80%。

此外，英伟达近年备受开发者偏爱的一大关键护城河是 CUDA 软件。AMD 总裁 Victor Peng 也展示了 AMD 在开发软件生态方面所做的努力。

AMD 计划在 AI 软件生态系统开发中采用“开放（Open）、成熟（Proven）、就绪（Ready）”的理念。

AMD 的 ROCm 是一套完整的库和工具，用于优化 AI 软件栈。不同于 CUDA，这是一个开放的平台。

AMD 还分享了 PyTorch 与 ROCm 的合作。新的 PyTorch 2.0 的速度几乎是之前版本的两倍。AMD 是 PyTorch 基金会的创始成员之一。

AMD 正在不断优化 ROCm。Victor Peng 说：“虽然这是一段旅程，但我们在构建可与模型、库、框架和工具的开放生态系统协同工作的强大软件栈方面取得了真正的巨大进步。”

02.云原生处理器 Bergamo：128 核，256 个线程，最高 vCPU 密度

再来看下 AMD 的数据中心 CPU。

苏姿丰首先分享了 AMD EPYC 处理器的进展，特别是在全球范围内可用的云计算实例方面。

她强调说，AMD 第四代 EPYC Genoa 处理器在云计算工作负载方面的性能是英特尔竞品的 1.8 倍，在企业工作负载方面的性能提高到 1.9 倍。

绝大多数 AI 都在 CPU 上运行，AMD 称，与英特尔至强 8490H 相比，第四代 EPYC 在性能上遥遥领先，性能优势高出 1.9 倍。

苏姿丰说，云原生处理器以吞吐量为导向，需要最高的性能、可扩展性、计算密度和能效。

新发布的 Bergamo，便是云原生处理器市场的入口。

该芯片有 820 亿颗晶体管，提供了最高的 vCPU 密度。

在大散热器下，有一个表面看起来非常像以前的 EPYC 的芯片，跟与 Rome 或 Milan 一样有中央 I / O 芯片和 8 个核心复合芯片（CCD）。

Bergamo 的每个插槽有多达 128 个核心、256 个线程，分布在 8 个 CCD 上，每个 CCD 的核心数量是 Genoa 16 个核心的两倍，采用比标准 Zen 4 内核提供更高密度的全新 Zen 4c 核心设计，并支持一致的 x86 ISA。

“Zen 4c 针对性能和功耗的最佳平衡点进行了优化，这为我们提供了更好的密度和能效，”苏姿丰在演讲中谈道，“结果设计面积缩小了 35%，每瓦性能显著提高。”

Bergamo 现在正在向 AMD 的云客户发货。AMD 还分享了第四代 EPYC 9754 与英特尔至强 8490H 的性能、密度和能效和对比：

除了 Bergamo 的新核心和 Chiplet 架构之外，该处理器与 Genoa 有很多共同之处，包括支持 12 通道 DDR5 内存、最新 PCIe 5.0、单插槽或双插槽配置等等。

不过，多核心不再只是 AMD 处理器独有的特色。不久之前，数据中心处理器新起之秀 Ampere Computing 刚推出拥有多达 192 个单线程 Ampere 核心的 Ampere One 系列处理器。英特尔也计划在 2024 年初推出内核优化的至强处理器 Sierra Forest，将内置 144 个高效能核心。

AMD 还展示了其最新的缓存堆叠 X 芯片，代号为 Genoa-X，现已上市。

该芯片针对高性能计算工作负载，包括计算流体动力学、电子设计自动化、有限元分析、地震层析成像及其他带宽敏感型工作负载，这些工作负载受益于大量共享缓存。

Genoa-X CPU 基于 AMD 的标准 Genoa 平台，采用 AMD 3D V-Cache 技术，通过在每个 CCD 上垂直堆叠 SRAM 模块来提高可用的 L3 缓存。

该芯片可提供多达 96 个内核和总计 1.1GB 的 L3 高速缓存，每个 CCD 上堆叠了一个 64MB SRAM 块。

据 AMD 披露的数据，在各种计算流体动力学和有限元分析工作负载方面，与英特尔最高规格的 60 核 Sapphire Rapids 至强相比，Genoa-X 缓存提升的性能提高到 2.2 倍到 2.9 倍。

下图是 Genoa-X 与相同数量核心的英特尔至强的性能对比：