美国东部时间6月30日,国际权威AI基准测试MLPerf?公布最新一期榜单。在集群封闭任务赛道中,谷歌与NVIDIA各自获得4项第一;在单机封闭任务赛道中,浪潮获全部8项训练任务的4项冠军,NVIDIA、Nettrix各获得2项任务冠军。
这已经不是浪潮第一次“霸榜”,在去年10月,MLPerf?公布的AI推理基准测试成绩中,浪潮就一举打破18项记录,总成绩名列第一;今年4月公布的MLPerf? AI推理基准测试成绩,浪潮同样以18项性能第一,荣登榜首。加上本次在MLPerf?训练基准单机性能测试中占据冠军榜单的半壁江山,“优秀答卷”背后体现的正是浪潮抢占AI这个高增长市场的技术实力。
“ 飙车“么?
MLPerf?那种持续的数字化转型以及竞争异常激烈的全球环境使得企业更加重视新兴技术。从全球来看,企业分配给AI服务的预算正在增加,技术研究机构Omdia对全球范围内980名ICT领域的技术决策者进行的调查显示,有超过65%的企业计划在今年增加AI预算。
然而,当前AI的应用日益复杂化、多样化,AI芯片、系统厂商纷纷给出不同的标准,以证实其产品在计算性能、单位能耗力等方面的水平。如何能从厂商给出的信息中判断出AI算力是否能实际满足自身真实场景的需求?这成为摆在企业面前最为现实的问题。
2018年,图灵奖得主大卫?帕特森(David?Patterson)联合谷歌、斯坦福、哈佛大学等顶尖学术机构发起成立了AI性能基准评测组织MLPerf?,它囊括了AI行业中的70多个知名企业和机构,包括了英特尔、英伟达、Google、亚马逊、阿里巴巴和百度、微软,以及斯坦福大学等9所大学。
“MLPerf?就像一个飙车的赛场,在统一的赛道、一样的标准下,参赛选手们用各种办法,把性能飙到最高,飙到最快。”浪潮AI&HPC产品线总经理刘军说。
正是由于满足了用户对于“基准性能”比对的这一需求,MLPerf?快速成为全球权威的AI基准性能竞赛。MLPerf?提供了一套用于测量和提高机器学习软硬件性能的通用基准,主要用来测量训练和推理不同神经网络所需要的时间,为评估各类AI平台在实际应用场景中的性能提供有效基准。
此次性能评测基于最新MLPerf? Training V1.0基准,分为固定任务(Closed)和开放任务(Open)。其中,固定任务要求使用相同模型和优化器,衡量同一深度学习模型在不同软硬件上的性能,尤其受到厂商和客户看重;开放任务则放开对深度学习模型及精度的约束,侧重深度学习模型及算法优化的能力,旨在推进ML模型和优化的创新。
在单机系统测试中,浪潮服务器斩获图像分类(ResNet)、语义理解 (BERT)、目标物体检测(SSD)和智能推荐(DLRM)四项任务的冠军。
和2020年榜单相比,今年榜单的各项任务测试成绩均有明显提升。在单机性能上,浪潮在备受关注的ResNet和BERT上取得了新突破,创下单机27.38分钟完成128万张图片训练ResNet模型的新纪录,比2020年最佳纪录耗时缩短18%;在BERT模型训练中,浪潮以21.15分钟打破2020年最佳成绩49.01分钟,用时缩短57%。
霸榜,
背后AI技术实力不容小觑
在本次榜单中,浪潮是唯一凭借领先的产品设计和开发能力率先实现支持8xA100-80GB-500W GPU服务器的厂商,并且提供了液冷与风冷两种机型。
对此,刘军表示“擅长做发动机的,不一定擅长做整车。服务器就像是做‘整车‘,整车性能的影响不仅来自于发动机等硬件、以及上层的软件能力,更需要的是调校能力。“
至于能不能在赛车场上获胜,还要看赛车手的能力。浪潮的研发工程师就像是驾驶顶级赛车的顶级赛车手,需要优异的软硬件协同优化能力,才能最大化发挥浪潮AI服务器的性能。
通过对CPU、GPU硬件性能的精细校准和全面优化,为确保GPU不被训练流程中的数据I/O阻塞,以充分发挥500W GPU的强劲性能,浪潮从三个方面开展了系统优化:
搭建基于NVME SSD的Raid系统。当数据从磁盘读到主机端内存后,通过NUMA节点与GPU的绑定,避免了跨CPU的数据拷贝,有效改进了数据传输性能;
使用GPU进行数据前处理,如图片数据的解码等操作,通过最优分配CPU与GPU数据前处理负载的比例,实现了训练过程中最佳数据前处理效率;
以上两点是训练过程数据供给通路中的两个关键环节。通过对这两个环节的深度优化,使整机系统的瓶颈集中在计算上,此时500W GPU的性能得以充分发挥。GPU在充分发挥性能的同时,也带来了更大的发热量,一旦系统散热不良,极易导致温度累积而导致GPU降频,影响最终性能。得益于浪潮AI服务器优良的散热设计,保证各类测试中从未发现因GPU过热而导致的降频现象。
“不刷分”!
从生产中来,到生产中去
对于业界来说,每一次MLPerf?评测结果不仅为业内带来最权威的AI基准测试,每一个参与厂商一次次不断突破AI系统性能,刷新业内纪录,实质拉高了整个行业的基准。水涨船高,这正是在榜单排名之外,各个厂商给AI技术领域的带来的重要贡献。
“把MLPerf?基准测试里做出来的系统设计、性能优化、模型调优经验和能力总结出来回馈到社区,这也是我们一直坚持在做的。”刘军说。在不断斩获MLPerf?冠军的同时,浪潮也把竞赛过程中探索出的高效优化方法回馈至MLPerf社区,推动AI技术的共同进步。
比如,在MLPerf? Training v0.7中,浪潮开创性提出效率更高的ResNet收敛性优化方案:在ImageNet数据集上,仅使用85%的迭代步数就达到了75.9%的目标精度,该优化方案将训练性能提升了15%。目前,该方案已被社区成员采纳,并广泛应用到MLPerf Training v1.0测试中,这也是此次ResNet任务成绩得以大幅提升的重要原因。
在浪潮看来,MLPerf?更像是一次考试——平时没有积累,单纯应试也不可能取得好成绩。“这些能力更多是建立在我们对客户应用的理解之上的。”人工智能与高性能应用软件部总经理吴韶华说,“实际上,客户的应用场景和MLPerf?应用场景本身是有重合的。通过客户实践,我们能够不断把研发团队的能力、技巧,以及方方面面的素质不断提升。”评测任务和AI领域的前沿应用的结合紧密,对于测试结果来说就具有很大的应用参考价值了。由此,也不难看出为什么MLPerf?虽然“年轻”,但却得到了一众大厂的认可。
不言而喻,MLPerf?基准测试“霸榜”一定是研发实力的体现,但如何与实际业务、客户需求更好地结合起来,在浪潮看来是更为重要的事情。“把我们在产品研发、客户需求、实际应用中所获得的洞察和理解,用到MLPerf?测试中来,再把MLPerf?中创新的点回馈到产业客户的实际应用中去,以此形成一种良性的循环。”刘军表示。
本文首发于微信公众号:略懂的小咖。文章内容属作者个人观点,不代表和讯网立场。投资者据此操作,风险请自担。
(张洋 HN080)