数据中心 CPU 战事升温：Arm Neoverse 路线图更新，新一代 V2 平台来了

观点

2022

09/16

20:40

亚设网

9 月 16 日消息，昨日，Arm 公布其数据中心芯片技术 Neoverse 系列的路线图更新。

Arm 在整个基础设施市场中正快速迭代创新，其路线图包括应用于云、高性能计算（HPC）和人工智能（AI）领域的 V 系列；应用于云、5G、网络和边缘领域的 N 系列；以及应用于 5G、网络和基础设施边缘领域的 E 系列。

具体来看，Arm 宣布推出打造数年的 Neoverse V2 平台，代号“Demeter”；明年其 N 系列产品线将迎来一次更新，目前有近 20 家合作伙伴正基于 N2 平台进行设计，新的 N 系列已经在开发中。同样 Arm 启用了 E2 平台，并计划更新 E 系列。

一、Neoverse V2 平台发布，性能、能效、可扩展性再升级

Arm 基础设施事业部产品解决方案副总裁 Dermot O’Driscoll 说，在为云工作负载提供出色性能、可扩展性和效率方面，Neoverse V2 具有领先优势。

单芯片性能和单线程性能是云决策者的两大关键指标。单线程性能使其了解，对 “扩展” 要求最高且性能需求大的工作负载能否迁移到 Arm。高单芯片性能则使其可以通过大量运行在平台上的“横向扩展”工作负载，来实现投资价值的最大化。

超大型互联网公司十分关心 TCO 或 TCO 支出，更关注这部分 TCO 支出所能带来的性能，这正是他们盈利的关键。而 Neoverse V 系列正擅长于此。

Arm 此次推出的 Neoverse V2 平台，得益于其与客户在其未来设计需求上的紧密合作，Arm 收到的 V2 相关反馈包括“希望提升云工作负载的性能”、“在平衡功耗和面积的同时，继续推进单线程性能”以及“尽早发货，帮助我们快速开拓市场！”Arm 已经做到所有这三点。

对于云工作负载，最基本的需求就是强大的整型性能，要具有良好的可扩展性，并且对于云运营商而言是要高效的，因为高能效使得云提供商可以提供更多的核心，并在每个服务器上托管更多客户，从而有助于降低成本。

Neoverse V2 将提供市场领先的整型性能。目前用 SPEC Integer Rate 对预估值进行测量，并且一直利用模型中的各种云基础设施工作负载对微架构进行调整，Dermot O’Driscoll 称，整个系列的成果都令他们十分兴奋。

除了整型可扩展性能之外，现代云应用程序还拥有大型工作数据集。如果能在接近 CPU 的位置保留尽可能多的数据，将是一个巨大的优势。为此 Arm 在 Neoverse V2 中增加了 2MB 的专用 L2 缓存。这比 V1 上的 L2 大 1 倍，且使用延迟的负载不变，能让 MySQL 和 Memcached 等云应用获得显著的性能提升。

同时，对于像 HPC 之类正快速迁移到云端的工作负载而言，矢量性能很重要。Arm 在 Neoverse V2 上已完成从 SVE 到 SVE2 的过渡，SVE2 可以帮助满足更多非 HPC ML 类型的工作负载，同时添加了更多加密指令。Arm 还将矢量引擎重构为 4 通道的 128 位，并对微架构进行了调整，以提高其有效吞吐量。

在系统层面，能够支持大量 DRAM 十分重要，这在 IO 方面，他们希望能够跨 IO 总线连接 GPU、TPU 和基于 NVMe 的 SSD，所以总线既要快又要支持高带宽。

通过 V2 平台，合作伙伴已能利用支持 Neoverse N2 的系统 IP 底板，包括 CMN mesh、MMU、GIC 和 NI 非一致性互连。CMN-700 mesh 互连支持每块裸片最高 512 MB 的系统级缓存，而且当前基于 CMN-700 的设计中增加了每个核心的系统级缓存，从而提升了云原生工作负载性能。

CMN-700 支持 2.5D 设计，其平台可以随时过渡到 3D，能将每个核心的缓存水平推向新高。CMN-700 还支持高达每秒 4TB 的 mesh 带宽。一个 HBM2e 内存栈需要达到每秒 0.5TB 的带宽。

客户还想要特定于 Armv9 的安全功能和极具竞争力的系统平台。对此，Neoverse V2 中引入了一些关键的 Armv9 安全增强功能，主要目的是防御内存攻击，这也是最常见的攻击类型。

二、Arm Neoverse 新增产品的四项关键原则

Arm Neoverse 新增的产品是基于几项关键原则所打造，将继续提供基础设施市场所需的性能、效率和专用处理能力。

首先是可扩展效率。两年前，Arm 推出了 V、N 和 E 系列核心设计原则。自那时起，大量基于此类计算基础的解决方案陆续面市。

另一个关键原则是技术领先地位。Arm 已创下了多项行业第一：第一个总内存带宽超过每秒 1TBffg’gv’b 的 CPU；第一个单块裸片上能配置超过 100 个核心的 CPU，核心数达到 128 个；第一个将 DDR5 和 PCIe Gen5.0 推向市场的 CPU；第一个在 SPEC CPU 2017 基准测试中打破 500 整型跑分的 CPU……

第三是快速创新的步伐。今天，这类 CPU 大多仍以单块芯片形式交付，但这种情况正在迅速转变。采用 Graviton3 的云 gg 服务今年发布 GA 版本，其中 Graviton3 使用 7 个 Chiplet。加速计算将计算 Chiplet 与加速器 Chiplet 相结合，如 NVIDIA 的 Grace Hopper 超级芯片。正因如此，Arm 才会成为 UCIe 的创始成员。

在推动各种重要互连技术的过程中，Arm 及其合作伙伴都参与其中。多年来，Arm 一直致力于开发和增强 AMBA CHI，这是实现高速、低延迟的芯片到芯片通信的重要协议。如今，Arm 的合作伙伴使用 CMN 系列中的 AMBA CHI，Arm 正与 UCIe 社区展开合作。

Arm 也是 CXL 的一员，将其视为桥接芯片到芯片解决方案的关键互连技术，例如将扩展内存、多个 GPU 或 TPU 连接到一个计算节点上。

Arm 基础设施事业部产品管理高级总监 Brian Jeff 透露，目前这一代 Neoverse 的系统总线支持的是 CXL 2.0，希望在新一代的系统总线中能支持 CXL 3.0，届时有望通过 Neoverse V2 来使用其新一代的总线技术。据他观察，目前内存扩展用例对 CXL 2.0 仍有很多需求，并预计在超大规模市场中会有一些设计出于这些目的来使用 CXL。

据介绍，当 Arm 的合作伙伴选择可扩展效率计算基础，并使用 CMN 等互连技术来增添其专用处理能力时，即可实现这一成果。这体现了解决方案的多样性，而且只有在 Arm 架构上才能实现。

Arm Neoverse 平台的第四条也是最后一条原则是，构建独一无二的开发者生态系统。Arm SystemReady 旨在打造一个软件可“开机即用”的世界，Arm 将持续与生态系统和开源社区展进行优化工作。

三、Arm Neoverse 今年取得多个里程碑式成就

Arm 高级副总裁兼基础设施事业部总经理 Chris Bergey 还回顾了今年 Arm Neoverse 取得的多个有里程碑意义的成就，包括：

1、在全球范围内，Arm 现已被用于各个主要公有云，包括 AWS、微软、谷歌、阿里巴巴、甲骨文等科技巨头。这意味着，世界各地的每一位开发者现在都可获取 Arm Neoverse。

2、Arm 在 5G RAN 领域无处不在。在世界移动通信大会上，戴尔与 Marvell 宣布合作，高通也与乐天、HPE 达成了合作。他们与诺基亚、联想、三星等公司正合力酝酿许多更加激动人心的项目。

3、NVIDIA 发布了面向 AI 及高性能计算（HPC）的 Grace。

4、逐步迈入更为传统的“企业”领域。VMware 运用 DPU 开展 Monterrey 项目。RedHat 的 OpenShift 支持 Arm 架构。SAP HANA 正将其云基础设施迁移到 AWS Graviton 上。6 月，HPE 推出了 ProLiant 第 11 代平台，搭载了基于 Arm Neoverse 的 Ampere Altra 处理器。

“我们已经达到了转折点，来全新的开端。Arm 架构是全球计算未来的基石！”Chris Bergey 说。

在中国市场，Arm Neoverse 同样势头强劲。除了大企业外，一些初创公司也开始基于 Arm Neoverse 设计芯片。Arm 基础设施事业部全球副总裁邹挺（Frank Zou）在接受采访时谈道，比如遇贤微电子、鸿钧微电子致力于云原生服务器 CPU 的开发，云豹智能主要针对 DPU 领域，他们正在开发基于 Neoverse N2 的产品。

Arm 的 V 系列核心、AWS Graviton3 中的 Neoverse V1 和 NVIDIA Grace 中的 Neoverse V2 将提供目前市场上最佳的单线程性能。Ampere Altra Max 和阿里的倚天 710 等将继续提供最佳的单芯片吞吐量。

Dermot O’Driscoll 还谈到 Arm 如何建立软件生态优势。Arm 多年来一直在努力实现并优化在 Arm 架构上运行的全栈解决方案，从架构和 IP 到技术库、运行环境和编译器，已启用了各种基础设施软件来提取最大性能。

下一个发展趋势是机器学习（ML）。就像 Java 在如今的云工作负载中占据大比例一样，ML 正逐渐成为未来的首选工作负载。在 ML 中，Arm 可以对 BERT 实现同样的启用。其 V1 核心拥有一组专门用于增强 ML 应用程序性能的功能。

Arm Neoverse 在架构方面添加了 Bfloat16（BF16）：调整了 V1、N2 以及后续设计的微架构，旨在通过 BERT 提高 BF16 的执行，为 Arm 计算库（ACL）增加 BF16 支持，将 ACL 集成到 oneDNN ML 框架中，oneDNN 框架与 Tensorflow 搭配使用以运行 BERT。

基于 V1 核心的 AWS EC2 C7g 上运行 BERT，并将其与使用最新 Xeon 核心的 C6i 进行对比，在 Arm 架构上经 BF16 优化的堆栈性能比英特尔高出 80%。在 V1 添加的 BF16 和 Int8 MatMul 意味着 ML 模型可以更紧凑地植入内存，只需更少的内存带宽，使 Graviton3 的 ML 性能达到 Graviton2 的 3 倍。

当被问及如何看待 RISC-V 指令集架构的竞争，Dermot O’Driscoll 认为，如果 RISC-V 想要在终端或云应用中更具竞争力，这将需要他们在架构、软件以及标准上进行多年的投资，并且很可能还需要具备类似于 Arm 的治理模式。