【文/观察者网 周远方 编辑/尹哲】
7月9日,在2021世界人工智能大会(WAIC2021)上,上海交通大学与华为公司联合发布了“数据密集型超算示范中心”。这是双方继4月份联合成立“高性能计算&存储技术联合创新中心”以来的又一重磅合作。
上海交通大学党委常委、副校长奚立峰,上海交通大学网络信息中心副主任林新华,华为数据存储与机器视觉产品线总裁周跃峰博士等嘉宾出席并见证。
上海交大与华为联合发布“数据密集型超算示范中心”
何谓“数据密集型超算”?
华为数据存储与机器视觉产品线总裁周跃峰介绍,近年来,随着新技术的应用和新兴业务的快速发展,超算业务发生了重大改变,现在参与计算的数据越来越多,比如说一辆自动驾驶汽车,每天训练所需数据大约60 TB,卫星遥感遥测、天气预报预测等等领域的超级计算需要大量的数据参与存储计算,传统的超算架构,已经远远不能够满足现在新型应用的需求。这也是“数据密集型超算”这一创新理念的由来。
上海交通大学网络信息中心副主任林新华介绍,所谓“数据密集型超算”是相对于传统超算而言的。在本世纪初,配置超算时,存储基本上是计算系统的附属品,一般会花60%-70%的精力来配置CPU、网络等等,最后再花10%-20%的精力配置调试数据和文件系统。
但是,从近10年的发展来看,数据的重要性慢慢超过了算力本身。以一个比较通俗的例子来说,如果某一天我们的手机丢了,可能最焦虑的是手机上的数据丢了,手机本身可能也会让人心痛,但硬件是可以用钱买到的,而数据丢了可能会很麻烦。所以,以数据为中心打造算力的理念,现在变越来越重要。
数据密集型超算以数据为核心来打造算力,我们先配置好一个数据量在20P左右的庞大的数据池,不管是x86的算力平台还是arm的算力平台,都可以插入数据池中。底层的数据池是稳定的,也可以扩容,算力可以灵活配置,这样,不管是对用户还是运维来说,都带来极大的便利性。
对用户来说,有时候有些数据需要用不同的算力计算,有时候需要用x86算完以后,再用人工智能来算,过去,这只能把大量数据从一台超算拷贝到另一台超算,非常麻烦,现在,数据池是统一的,算力只是上面插入的一个工具,可以随时切换。“这就好比吃饭”,林新华说,“不同的算力相当于勺子、叉子、筷子,不管用什么工具,关键是要吃到下面的饭”。
对运维来说,过去,如果配置了一台新的超算系统,就必需把老的系统上的数据都迁移到新的系统,对超算动辄数百TB,甚至PB的数据量来说,这个过程费时费力,还很有可能造成数据错误。数据密集型超算从理念上颠覆了这种方式,数据层不需要动,算力就像插件一样,可以根据需要插入和调换。
对存储提出更高要求
虽然说数据密集型超算的便利性显而易见,但从存储技术上,就提出了很高的要求。
林新华介绍,交大的“数据密集型超算示范中心”主要基于华为OeanStor Pacific高密专用硬件,其并发量和访问性都相当好,目前,交大的几个算力平台的CPU核总共有30000多个,在同一个并行文件系统中都可以稳定运行。
周跃峰介绍,存储作为超级计算系统的数据底座,在传统超算HPC向数据密集型超算HPDA升级的过程当中,我们需要解决几个挑战,第一,数据量越来越大,第二,数据的类型越来越多,参与计算的数据类型,从过去的二进制文件到今天的非结构化数据,类型层出不穷。第三,不同类型的数据在计算的过程当中需要进行流动,而且需要实现多种协议共享一份数据,避免数据耗时费力的迁移。为了解决这些挑战,我们和上海交大一起共同打造了数据密集型超算示范区,希望为这些世界级的难题提供答案,提供我们商业级的解决方案。
华为方面进一步介绍,首先,解决海量数据(603138,股吧)存得下的问题,华为OeanStor Pacific高密专用硬件,基于全新的高密架构设计,提供更高的容量利用率,在有限的机房空间里存下更多数据,更好地满足海量数据增长的需要。
第二,支撑混合负载问题,交大的超算平台,有时并行任务高达50个,有的任务要求频繁的小数据量的读取,也有的任务要求大文件的快速读取,因此需要性能更加均衡的存储。华为OceanStor Pacific推出了新一代分布式并行文件系统,同时支持高带宽和高IOPS,通过与分布式并行客户端(DPC)的密切配合,打破单流和单客户端的性能瓶颈,有效应对混合工作负载的挑战。
第三,由于数据量的增大、数据应用的复杂化,数据在不同环节、不同系统间高效流动是数据密集型超算面临的一个主要挑战。华为推出多协议互通能力。多个存储服务同时访问一份数据,支持NFS、CIFS、HDFS和S3等协议的按需部署,通过其中一种协议写入的数据,无需迁移即可被其他协议读取,提高跨环节、跨系统的数据分析效率。
周跃峰表示,华为希望在世界中国数字化的浪潮过程当中,特别是在中国东数西存、东数西算的大背景下,通过上海交大和华为公司的合作,能够尽快使最新研究成果产业化、商业化,帮助国家各个行业真正实现数字化,真正实现超级计算走向平民化,解决我们生活生产当中的各种问题。
中国高校首套arm架构超算
除了实践数据密集型理念,上海交大的“数据密集型超算示范中心”也是国内高校建设的第一台arm架构超算。
林新华介绍,虽然上海交大一直以来在超算方面投入领先,在2018年建成了在国内高校中排名前列的x86超算,但运行两年多之后,整个平台使用率已经达到90%以上,因此,考虑把计算能力进一步扩容。
林新华介绍,经过多方调研,发现中国的天河E级的原型机、目前全球公开算力排名第一的日本富岳等超算都是基于arm架构,前景广阔。新超算从去年12月份开始建设,到今年4月安装调试完成,共有约100个节点,12800核,目前已把原先x86上运行的30-40%应用导流到arm超算。
林新华坦言,作为国内高校中首个建设arm超算的单位,在建设和调试过程中,不可避免地踩过一些技术“坑”,归纳起来主要有四点:
第一,有没有软件,目前,arm生态仍然在起步阶段,许多用户需要的应用在平台上还没有,针对这个问题,上海交大与华为合作,已成功编译安装十几种常用应用软件;
第二,算的对不对,计算结果是否可信,这一般通过两种途径验证,一是仿真计算结果是否符合实验结果,二是arm平台计算结果是否与x86平台一致,在普通人看来,这可能不是问题,但是在科学计算领域,确实需要复杂的调试;
第三,是否是高性能,这仍然需要调试,arm平台在未经调试的情况下,性能比x86平台弱,但调试后明显加强;
第四,用户使用是否方便,目前arm对每个人来说,都是既熟悉又陌生,因为我们的手机都是arm架构,但确实没有使用过arm架构的超算,我们通过培训、讲座、编写教材等方式,让用户快速入门使用。
经过四个月的努力,目前在上海交大arm超算平台上,首批测试了生命科学、材料科学、气象科学等8个领域的应用,其中5个应用的结果正确性已经完成验证过。
通过项目合作培养人才
林新华还强调,在与华为的合作中,除了技术层面的合作,在人的培养教育方面同样重要,上海交大作为一所高校,本职工作就是教书育人,在“数据密集型超算示范中心”项目上,具体要培养两种人,一种是懂“数据密集型”和arm架构超算的用户,另一种是懂得安装调试超算的人才,也希望能够与同行多交流经验。
在上海交通大学党委常委、副校长奚立峰看来,人才培养尤其重要,去年,任正非将上海交大作为国内高校访问的第一站,他希望大学像灯塔一样照亮自己的学生。上海交通大学也一直在这样做,非常愿意把教授,以及本科、硕士、博士毕业生输送到华为,双方都愿意在人才培养方面做更多的合作和贡献。
上海交大党委常委、副校长奚立峰强调人才培养
(张洋 HN080)