一系列接二连三的大事件,为英特尔、英伟达、AMD 三大巨头围绕数字化时代的异构计算 CPU+GPU+FPGA / DPU 的“竞夺”提供了更多的想象空间,也成为了日后分野的新注解。
英特尔在独立 GPU 领域卷土重来,在 IPU 领域亦不断出新,借助在硬件、软件、架构和制程方面的革新以及 IDM2.0 战略重兵压阵。
AMD 收购赛灵思落定之后,补齐了 FPGA 的短板,前不久 AMD 又宣布以约 19 亿美元收购云服务提供商 Pensando,至此 AMD 正式进入 DPU 领域,为其数据中心蓝图补上关键一环。英伟达虽收购 Arm 被迫“放手”,但已有基于 Arm 的 CPU 作为重要“补给”,并通过收购补齐 DPU,欲在异构时代大展身手。
三大巨头的火拼已然深入腹地,英特尔、英伟达、AMD 的争夺已呈现出“全面战役”的态势。
在异构计算领域,GPU 可说是必须倚重的“弹药”。
作为异构时代和新兴应用驱动下的最大受益者之一,随着服务器、汽车、人工智能、边缘计算等领域对算力和 AI 性能需求的不断提升,GPU 凭借自身在并行处理和通用计算的优势高歌猛进,市场得以持续高速成长。
据 Verified Market Research 的数据,2020 年全球 GPU 市场价值为 254.1 亿美元,2027 年有望达到 1853.1 亿美元, 年平均增速高达 32.82%。
目前 GPU 被广泛地运用于 PC、游戏、数据中心、高性能计算、智能汽车等领域。值得注意的是,游戏与 PC 是其传统主战场,而数据中心、高性能计算和智能汽车将成为 GPU 增长的新引擎,不同应用对 GPU 的需求也各有侧重。
据了解,游戏主机的设计思路着重提升体验,侧重开发人员对 CPU、GPU 等硬件优化和底层 API 等软件优化。而 PC 的 GPU 需在性能、拓展性、能效方面做到平衡,主要有集成 GPU 和独立 GPU 两类,大部分集成 GPU 已与 CPU 集成为 SoC,而独立 GPU 多采用 PCIe 总线与 CPU 实时通信。从高性能计算和服务器来看,对 GPU 具有大数据量的快速吞吐、超强稳定性、长时间运行等严格要求;汽车 GPU 需满足诸如 AEC-Q100 等车规认证,并支持专用的图形 API,并且未来的趋势是汽车 CPU 将和 GPU 组成 SoC,从分布式向中心化发展。
在多年鏖战之后,全球 GPU 呈现寡头垄断的格局,英伟达是绝对的霸主,AMD 紧随其后,但在英特尔重返独立 GPU 战场之后,原本的平衡将被打破。
通过技术革新、场景拓展、外延并购,加上依托于 CUDA 软件堆栈对 GPU 通用计算能力的不断发掘,英伟达成为 GPU 领域的佼佼者,引领全球 GPU 发展。2022 财年,英伟达收入创纪录,达到 269.1 亿美元,同比增长 61%。
翻看英伟达的营收结构可以发现,受益于对英伟达 Ampere 架构产品的强劲需求,游戏成最大动力,数据中心市场增速最快,创 106.1 亿美元新高;而汽车业务虽有下滑,但后续仍将持续收获。其下一步布局也是火力全开:已推出新一代桌面 GPU 和笔记本电脑 GPU; 面向数据中心的下一代 GPU Hopper GH100 芯片或超过 1400 亿个晶体管,并将采用台积电 5nm 节点的多芯片模块 (MCM) 设计。且下一代自动驾驶芯片 Orin 计划用于 2022 年量产,算力将达到 254TOPS,目前已经获得蔚来、理想、沃尔沃、奔驰等多家整车厂项目。
经过近些年的“突飞猛进”,AMD 在 CPU 和 GPU 市场均站稳了市场第二的位置。在 GPU 布局上,2022 年 AMD 通过新的顶级、中端和入门级 GPU,进一步扩展显卡市场,同时配备新的 AMD Software 支持。在数据中心领域,AMD 也激进不止,前不久发布了基于 GPU 架构的 Instinct MI200 加速卡,致力于 HPC 和 AI 加速。其采用第二代 CDNA 架构(专为优化数据中心计算工作负载而设计),是首个多芯片、首个支持 128GB HBM2E 显存的 GPU,也是首款 Exascale 级(百亿亿次级)GPU。同时还推出了新型面向数据中心 GPU—— 下一代 Radeon Pro V620,旨在满足云应用、3D 工作负载等对 GPU 加速日益增长的需求。
在 PC 等集成 GPU 领域占据领先优势的英特尔,自前几年宣布重回独立 GPU 战场之后,招数凌厉,不断精进。2020 年底,英特尔在其架构日中首次推出 Xe GPU 架构,Xe 微架构可满足从集成 / 入门图形需求到数据中心和高性能计算的需求。同时,英特尔发布了其首款数据中心服务器 GPU,完成了“CPU+GPU+FPGA”混合 XPU 架构的全面构建。
在 2021 年架构日上,英特尔即重磅推出两款独立 GPU。而在前不久举办的投资日上,英特尔发布两款 GPU,分别面向游戏领域和数据中心。接着,英特尔宣称,代号为 ATS-M 的数据中心 GPU 将于第三季度发布,其集成多个 Xe 内核、AV1 硬件编码器、GDDR6 内存、光线追踪单元等,可提供每秒 150 万亿次运算。不止如此,面向传统阵地 PC 领域,英特尔也志在必得,分别推出了面向笔记本电脑平台的 Arc 锐炫系列显卡和面向台式机的首款 A3 系列显卡 —— 锐炫 A380 GPU。而且,不仅仅是 A380,具有更高性能的英特尔锐炫 A5 系列和 A7 系列也将于今年夏季面市。
在硝烟四起的 GPU 领域,火力全开的英特尔或将全方位向 AMD 与英伟达发起挑战。
直接来看,英特尔、英伟达和 AMD 三大巨头的异构“拼图”均已大致成形。
在这三大巨头中,显然英特尔的异构组合更具底蕴。过去五年来,确立“以数据为中心”转型目标的英特尔,持续通过并购等动作丰富自身在数据中心领域的布局,包括收购优质的 FPGA、eASIC、ASIC 公司,再加上研发独立 GPU、IPU、神经拟态芯片、量子计算芯片,以及研发统一编程软件工具 oneAPI,为 CPU、GPU、FPGA 和其他加速器在内的异构计算提供统一简化的应用程序开发编程模型,实现了覆盖多重架构的产品组合。
加之最近 IDM2.0 策略的大举扩张,以及宣称开放 x86、高调加入 RISC-V 阵营的一系列动作,让英特尔在异构化时代手握多张“王牌”,更加游刃有余。
而从 AMD 来看,其业务长期聚焦在 CPU 和 GPU 两大核心领域,FPGA 则是其最大短板。但在 AMD 宣布以全股份交易方式完成了对赛灵思的收购之后,凭借赛灵思在 FPGA、可编程 SoC 及 ACAP 领域的深厚积累,为 AMD 提供了横向云端及边缘计算实力的走强补充了“营养”。AMD 与赛灵思的合并,不仅将着力提升其整体的数据中心业务竞争力,还将在数据中心异构化时代获得更多筹码。
在 Pensando 被 AMD 收入囊中之后,意味着 AMD 不仅正式切入到 DPU 领域,也让 AMD 的业务已完整涵盖 CPU、GPU、FPGA、DPU,构建了基本完备的算力“拼图”。
以 GPU 纵横江湖的英伟达,为成全其“GPU+CPU+DPU”的路线,英伟达先是高调宣布收购 Arm,后花费 69 亿美元收购以色列网络设备商 Mellanox 补给 DPU。尽管最终“毫无意外”地收购 Arm 折戟,但其已在大力投入 CPU 开发,并于 2021 年的 GTC 大会上正式推出面向数据中心 AI 和高性能计算应用的自研 CPU—— 基于 Arm Neoverse 架构的 Grace 芯片。根据协议,英伟达取得了 ARM 将近 20 年的架构授权,未来可通过 ARM 授权 IP 来开发 ARM 架构 CPU。
对于英伟达来说,Grace CPU 的研发意义深远,因 GPU 需搭配 CPU 运算,此招将使其在 CPU 方面不再受限,CPU 的自立自强也将使其异构融合更纲举目张。
面临全面较量,三大巨头也有着不同的隐忧。
有行业人士分析,AMD 还需要时间消化和整合 GPU+CPU+DPU+FPGA,扩展为云、企业和边缘客户提供领先解决方案的能力;英伟达倚重的 GPU 未来在数据中心加速领域或面临 ASIC 的蚕食;而英特尔还是一个基因属于 CPU 的公司,而在 GPU 上的投入需要配合 CPU 的成长,因此处理好 CPU 和 GPU 之间的发展冲突将是巨大挑战。此外,在 IDM2.0 的指挥棒下,投资重心不可避免向先进制造倾斜,如何平衡各大 XPU 的创新与整合投入资源也需要仔细掂量。
需要指出的是,随着 Chiplet UCIe 协议的确定,设计规模可增加数倍,如 CPU、GPU 和 DPU 均可平行扩展 N 倍;或实现垂直整合,CPU+GPU+DPU 可合并成一个超异构的单芯片,或是两两合并。
因而,不同系统如何并行不悖以及如何高效的自适应交互,将成为巨头们面临的全新挑战。谁能在这方面先行一步,谁将放大未来的赢面。
在重新披挂上阵之后,三大巨头的对决也将火力全开。
除了应对“xPU+”的架构创新、生态构建和执行力的持续考验之外,真要实现超异构计算,不得不说,制程和封装才是将理念化为实际产品的关键。
先说工艺,以及相关的产能因素。
无论是 CPU、GPU 还是 DPU、FPGA,都是先进工艺的先行者。要想与一众高手对决,采用最先进的工艺当是王道。
近期有消息显示,台积电在其 3nm 工艺良率方面存在困难,如果 3nm 良率问题继续存在,许多客户可能会延长 5nm 工艺节点的使用时间,从而影响客户诸如 AMD、英特尔、英伟达的芯片出货。
这使得产能紧缺导致的供应瓶颈成为他们面临的阻力之一。正如英伟达发布财报时表示,鉴于全球芯片和晶圆生产能力短缺,未来供应方面限制仍将是一个不利因素。据报道,英伟达已在 2021 年第三季度预付台积电约 16.4 亿美元,并将在 2022 年第一季度支付 17.9 亿美元,整个长期订单预付款将达到 69 亿美元,远高于他们之前支付的价格。
相对于英伟达和 AMD,英特尔的优势是其正在大力发展的代工业务。虽然目前在代工方面英特尔技术尚未突破 5nm,但如果按照其技术路线图,2025 年将可看齐台积电的代工水平。或许,届时英特尔可全力支撑自己的先进制程设计,在 x86、Arm 和 RISC-V 的异构整合层面更加游刃有余,并在产能保障上优先供应,其 IDM 2.0 战略背后的深意或比想象得更加深远。
此外,异构计算绕不过去的就是异构集成和先进封装。异构集成与先进封装技术的进步使在单个封装内构建复杂系统成为了可能,能够快速达到异构计算系统内的芯片所需要的功耗、体积、性能的要求。
在先进封装层面,看起来作为传统 IDM 的英特尔似乎更具优势,而 AMD 原本也是 IDM,只是后来将芯片制造业务剥离出去了,但该公司依然具备制程和封装的基因。过去几年,AMD 因其率先推向市场的 chiplet 和互连技术而占得了先机,在此基础上,该公司推出了新一代封装技术,也就是 3D 堆叠 V-Cache。在这方面,赛灵思也可为 AMD 提供帮助,因为赛灵思已为其自适应 FPGA 平台构建了一系列高性能封装和互连技术。
对于英伟达而言,作为一家纯粹的 Fabless,在异构整合的制程和封装方面略逊于英特尔和 AMD,不仅在高性能应用领域,在制程和封装方面对合作伙伴的依赖度更高一些。
对比之下,英特尔多路并进,在 Co-EMIB、UCIe、Foveros 等方面不断推进。特别是在 3D 封装部分,英特尔已推出 Foveros Direct,实现了向直接铜对铜键合的转变,通过 HBI 技术以实现 10 微米以下的凸点间距,让不同芯片之间可实现 10 倍以上的互联密度提升。而且前不久其为超算研发的顶级加速卡 Ponte Vecchio,集成晶体管数量突破 1000 亿个,使用 5 种不同的制造工艺,在内部封装了多达 47 个不同的单元 (Tile),成为采用 Foveros 的 3D 堆叠封装技术和 Co-EMIB 连接技术的“集大成者”。
据咨询机构 Yole Developpement 数据显示,2021 年半导体厂商在先进封装领域的资本支出约为 119 亿美元。该机构表示,2021 年先进封装市场体量约为 27.4 亿美元,同时预测该市场到 2027 年将实现 19% 的复合年化增长率,届时先进封装市场体量将达到每年 78.7 亿美元。
如此来看,未来的争夺也将在架构创新、工艺、封装等全面展开,在这些方面三大巨头或需面面俱到。