产品到底哪家强,自己说了都不算,也不是比谁声音大,最好是有个公平的竞赛,好在世界是公平的,权威的世界级比赛还是有的。
要判断AI服务器哪家强, 国际AI性能基准测试MLPerf?可以说是试金石。
MLPerf? 由图灵奖得主大卫?帕特森(DavidPatterson)联合谷歌、斯坦福、哈佛大学等顶尖学术机构发起成立,是影响力最广的国际AI性能基准评测。
2018年,来自百度、谷歌、哈佛、斯坦福以及UCB大学的工程师和科学家们共同开会探讨推动了MLPerf测试的诞生。这项测试旨在推动机器学习领域技术的发展,也为衡量机器学习系统性能建立了一个相对权威的标准。
MLPerf是一系列测试机器学习性能表现的标准。它通过在一个标准目标下训练机器学习模型的时间,作为一套系统性能的测量标准。其中训练任务包括图像识别、物体探测、NLP自然语言处理以及强化学习等。而在最新的1.0版本中,MLCommons又增加了两项新的测试项目:语音-文字转换以及3D医学图像处理。
所以,对于品牌来说发榜日是个重要而且紧张的日子。
6月30日,MLPerf如期发榜,此次性能评测基于最新MLPerf? Training V1.0 基准,涵盖了图像分类(ResNet)、医学影像分割(U-Net3D)、目标物体检测(SSD)、目标物体检测(Mask R-CNN)、语音识别(RNN-T)、自然语言理解(BERT)、智能推荐(DLRM)以及强化机器学习(Minigo)8类AI应用场景,每类场景都包含固定任务(Closed)和开放优化(Open)两类性能竞赛。
其中最大的看点是:国际大厂不再屠榜,中国品牌表现可圈可点。
八大场景测试 宁畅浪潮雄霸榜单
6月30日,国际权威AI性能基准评测平台MLPerf,发布了基于Training V1.0 的最新标准测试结果。宁畅 AI服务器X640 G40和X660 G45,分别以48.43、28.64成绩,取得固定任务(closed)赛道,单机服务器系统的MASK R-CNN、U-NET3D两项AI场景世界性能第一。
也就是说宁畅AI服务器X640 G40和X660 G45在固定任务(closed)赛道8大场景测试中收获两大场景世界冠军。
而另外国产大厂---浪潮,在固定任务(Closed)赛道的全部8项任务中,获得图像分类 ResNet、自然语言理解 BERT、目标检测 SSD 和智能推荐DLRM 4项训练任务性能冠军,其中,浪潮 NF5688M6 获得 ResNet、DLRM 和 SSD 的单机训练性能第一,NF5488A5 获得 BERT 的单机训练性能桂冠。
浪潮 NF5688M6和NF5488A5在固定任务赛道8大场景中一共收获4项冠军。
“国家队”表现非常强劲,浪潮毫不掩饰自己的喜悦,新闻标题用上了:“浪潮AI服务器斩获半数冠军”。而宁畅则是直接用:“世界冠军!宁畅服务器获MLPerf 新纪录“来表达。
此情此景,真有点中国乒乓球队领奖的味道。
宁畅这样简单描述这一重要赛事的胜利:一秒分析5040张X光照片、AI"奥运会” MLPerf放榜、宁畅AI服务器再获世界性能第一。
浪潮则凭借卓异的软硬件系统优化能力,将 MLPerf? 训练基准的单机效率进一步提升至新的高度。相比2020年 MLPerf? Training v0.7 榜单,浪潮刷新了图像分类、自然语言理解、目标检测(SSD)和智能推荐4项任务的单机训练性能纪录,将模型训练耗时分别缩短了17.95%、56.85%、18.61%和42.64%,凸显出顶级 AI 服务器在AI 模型训练效率上的巨大价值。
浪潮在 MLPerf? 基准评测中的出色表现,得益于在 AI 计算系统创新上卓越的系统设计能力和全栈优化能力。在硬件层面,针对 AI 训练中常见的密集 IO 通信瓶颈,浪潮 PCIe Retimer Free 设计实现了 CPU-GPU 间通道免中继高速互联,大幅降低通信延迟,极大提升了 AI 训练效率。
同时,针对高负载多 GPU 协同任务调度,对 NUMA 节点与 GPU 之间的通信进行全面优化和基准调校,确保训练任务中的数据 IO 无阻塞通信;此外,在通信散热层面,针对目前业界功率最高的 500W 80GBA100 GPU ,浪潮率先开发的先进片上液冷系统,确保 GPU 在全功率甚至超频负载下依然稳定工作,将 AI 计算系统的性能发挥到极致。
宁畅同样刷新的新记录,宁畅夺冠的两大场景MASK R-CNN、U-NET3D是重量级图像目标检测以及图像分割模型,其应用场景包括自动驾驶、医疗图像分析、监控、工业检测等,是典型数据中心应用模型。而第一成绩背后是每秒分析5040张X光照片、57000张图片以及570余次训练迭代的,单机服务器世界极限处理速度。
宁畅方面介绍,本次MLPerf Training V 1.0测试,共有16家国际一线厂商在固定任务(closed)赛道,提交了91个单机系统配置,并于DLRM、MASKR-CNN、Resnet50、SSD、U-NET3D等8个AI场景下,产生超百项测试成绩。
MLPerf测试的AI场景包含固定任务(Closed)和开放优化(Open)两个赛道,固定任务(Closed)更侧重公平性,参与测试的各计算系统基于同一套参数运行。搭载英特尔第三代?至强?可扩展处理器、Optane? BPS大容量持久内存以及NVIDIA? A100 Tensor Core GPU的宁畅X640 G40以及X660 G45,从众多机型配置中“杀出”,以48.43、28.64分钟成绩夺得MASKR-CNN、U-NET3D场景的单机世界性能第一,取得新世界性能纪录。
在MASK R-CNN、U-NET3D测试中,单机服务器系统需要运行29GB、21GB的原始图像数据,并通过分析与迭代最终完成模型训练。而完成过程所耗费时间越少,则印证系统性能越强。
此处划重点:
除获得以上两项性能冠军外,在横向比较搭载同400W功耗GPU的单机服务器系统,宁畅X660 G45在DLRM(推荐系统)、SSD(目标检测)固定任务赛道,以1.92、8.51分钟成绩取得世界性能第一。
请大家注意的是:浪潮 NF5688M6 获得DLRM 和 SSD 的单机训练性能第一,搭载的是500W功耗GPU,宁畅搭载的是400W功耗GPU。
从这个角度上来说,宁畅收获的同样是八大场景4个冠军席位。
两强争霸不是头一回
我们来看去年榜单,2020年美国东部时间10月21日,全球备受瞩目的权威AI基准测试MLPERF公布推理测试榜单。
10月22日,浪潮AI服务器NF5488A5宣称一举创造18项性能纪录,在数据中心AI推理性能上遥遥领先其他厂商产品。
同日,宁畅AI服务器X640宣称:首登MLPERF,斩获30项AI性能世界第一,同配置测试获16项世界第一。
当时,宁畅工程师介绍,参加MLPERF INFERENCE(推理)基准测试的X640 G30 AI服务器,最高可支持10张NVIDIA A100 PCIE卡或21张NVIDIA T4 PCIE卡,堪称“性能猛兽”。
在去年基准测试中,浪潮AI服务器NF5488A5在开放优化(OPEN)和固定任务(CLOSED)的RESNET50基准性能测试中,均表现优异,相比2019年MLPERF推理榜单的服务器最好性能提升高达3倍。
总体来说,浪潮和宁畅都在去年的冠军的基础上获得了长足的进步。
值得注意的是,宁畅是夺冠MLPerf的唯一初创公司,而浪潮是全球领先的 AI 计算厂商, AI 服务器市场份额全球第一,在中国的市场份额已连续四年保持在50%以上。
不知道,面对如此贴身肉搏的宁畅,是否感到了压力?
结 语
我一直认为AI时代已经来临,但一服务器品牌主管坚持认为AI是一项技术。
如果从静态的角度来看,AI的确是一项技术,但从动态来看,AI带来了方方面面的改变,让我们感受到生活的各种便利和丰富多彩,关键是带来了产业链上的悄然联动变化。
浪潮IPF2021数据中心合作伙伴大会,公开资料中没见英特尔携手。回想起,2020年同样的大会,同样以智算为主题,IPF2020 宣传网页上清晰呈现:“英特尔携手浪潮,让智者更强。”而今年的合作大会上,浪潮与寒武纪发布AI服务器“扬子江”
再来看,屡创佳绩的浪潮AI服务器NF5488A5采用的是2颗AMD EPYC7742处理器。
浪潮首席科学家王恩东在谈到智慧时代算力需求的时候说:“在2020年以GPU为代表的AI加速芯片所交付的计算力已经超过了同类CPU,预计到2025年加速芯片所提供的计算力可能在整个计算力交付当中超过80%。”
王恩东在谈到挑战多元化时说:“不同数值精度的计算类型对计算芯片的指令集、架构等要求也是不一样的,这样就导致之前一直使用的通用CPU没有办法满足多元计算场景的要求,应当说这也是计算芯片种类越来越多的重要原因。”
在多元化这一段段落最后,王恩东告诉大家:“英伟达公司的CUDA软件环境更是通过长期的大规模的投入才打造了支撑GPU在HPC和AI方面的霸主地位。”
听话听音,作为一位IT业者,你或多或少意会了英特尔为什么没有携手,或多或少你都能意会到产业链变革已经来临。剩下的问题是,你还以为AI 只是一项技术么?
本文首发于微信公众号:深度围观。文章内容属作者个人观点,不代表和讯网立场。投资者据此操作,风险请自担。
(王治强 HF013)