让数据进去,让智慧出来。
采访 | 王德清
编辑 | 刘景丰
随着数字经济时代来临,计算力的重要性将越来越明显。
近日,以“智算·新际”为主题的人工智能计算大会(AICC)在北京开幕,会上IDC和浪潮信息(000977,股吧)联合研究并发布《2021-2022中国人工智能计算力发展评估报告》(下称《报告》),从AI算力产业发展趋势、市场规模、区域算力分布和行业AI算力保有程度等多个角度,对中国人工智能发展做出综合评估,为推动智能经济发展提供极具价值的参考依据和行动建议。
此前由IDC和浪潮信息联合研究发布的《2020全球计算力指数评估报告》就显示,2015-2019年,计算力指数平均每提高1个点,国家的数字经济和GDP将分别增长3.3‰和1.8‰。这意味着,未来计算力将成为拉动数字经济发展的重要力量。
浪潮信息副总裁、浪潮信息AI&HPC产品线总经理刘军接受「甲子光年」采访时表示,算力中心之于数字经济,就像工业时代的电厂,智慧时代的算力中心承载算力的生产、调度和供应的过程,为数据的加工、处理、挖掘、分析提供源源不断的动力源(600405,股吧),“让数据进去,让智慧出来。”
数字经济不断发展,先行者的经验让现在大多数企业清晰地认识到,数据只存起来是不行的,更要用起来,并挖掘出其存在的价值。
1.智能计算中心成数字经济重要抓手
数据是数字经济的石油,是企业产出有效洞察的基础,可帮助企业实现流程和决策优化。数字经济时代,企业的发展越来越依赖于数据所产生的价值。
赛迪顾问数据显示,到2030年数据原生产业规模将占整体经济总量的15%,中国数据总量将超过4YB(1YB=1024^5GB),占全球数据量的30%。这意味着,届时数据资源已成为关键生产要素,更多的产业通过物联网、工业互联网、电商等结构或非结构化数据资源来提取有价值信息。
这些有价值信息的采集、传输、处理、存储、管理和利用等,均有赖于数字化基础设施的完备。
而海量数据(603138,股吧)的处理与分析,意味着需要庞大的算力支撑。
此次发布的《中国人工智能计算力发展评估报告》指出,目前算力已成为数字时代的核心生产力,是拉动数字经济向前发展的新动能。
此前2020年,国家发改委明确新型基础设施范围,表示以数据中心、智能计算中心为代表的算力基础设施是新基建的重要信息基础设施,进一步为算力公共基础设施的建设指明道路。此后,各个地方开始不断布局智能计算中心。数据显示,2018~2020三年的AI算力城市排名中,北京、杭州、深圳三强格局初定,重庆、合肥、南京、苏州、西安等新一线城市在人工智能新赛道中表现抢眼。
而在最新的2021年中国人工智能城市排行榜中,TOP5城市依次为北京,杭州,深圳,南京,上海,排名6-10的城市为苏州,广州,济南,成都,合肥。其中,南京首次进入前五名,济南首次进入前十,位居第8位。
值得注意的是,各地竞相布局的智能计算中心并不是传统数据中心和计算中心的简单升级,而是构建未来智慧社会和智能经济的关键性公共算力基础设施。通过“普适普惠”的智能计算资源多元服务,智能计算中心能够有效地推动各地方开展数据共享平台、智能生态建设以及智创产业聚集,是以智能技术和智慧产业为基础的数字经济的发展起点。
我国加速发展的智能产业,正不断推动各地产业升级,使各地在人工智能开发和智能产业推广上迈向更高的台阶。通过对不同地区人工智能发展程度和应用层面的覆盖程度来看,我国对人工智能领域的研究仍保持着高度的投入,在应用层面的拓展也保持着持续上升的趋势。
2.“核聚变”效应 数据价值亟待进一步释放
与传统经济不同,数字经济对于产业具有“核聚变”效应。这个效应主要体现在产业创新效应、产业融合效应与产业关联效应这三个方面,三者通过相互间的耦合反应,促进产业的结构调整和转型升级。
AI算力正是将“核聚变”效应充分释放的最重要推手。但就像一个硬币的两面,智能计算在快速前行和应用的同时,阻碍其进一步发展的挑战也开始显现。
人工智能计算场景复杂多样,训练模型参数巨大,调用数据资源更是海量,但产业链却存在着上下游供需脱节、硅芯片逼近物理和经济成本极限导致摩尔定律逼近失效等不足。这带来了指数级增长的算力需求的同时,也使计算产业面临多元化、巨量化、生态化三大挑战。
多元化表现在,随着AI应用的场景不断丰富,计算场景愈加复杂,对计算芯片指令集、架构的要求更加细分,带来多元AI计算芯片的高速发展。同时,种类繁多的计算芯片,进一步加大了计算的复杂性。
多元化的芯片发展,为产业AI化的加速提供了重要的产业基础和更加多元化的选择。但是,芯片从造出来到大规模用起来,往往还隔着一个巨大的产业鸿沟。一方面,算力的供给需要构建算力平台,需要解决架构设计、核心部件、高速互联、散热设计等一系列工程问题;另一方面,面对大规模AI算力部署,AI算力平台建设又面临高功耗、高电流密度、高总线速率、高系统复杂度的新问题。集约高效、开放共享的智算系统,是让多元算力能够走向产业,让大家用得上、用得好、用得起,实现算力普适普惠的关键。
巨量化,则表现在模型参数多、训练数据量大等方面。例如在自然语言处理方面,基于自监督学习的预训练模型兴起后,模型精度随着模型尺寸及训练数据的增加显著提升。比如2020年GPT-3模型的参数量首次突破了千亿大关,达到了1750亿。
就在前不久,浪潮人工智能研究院发布了全球最大规模的中文AI巨量模型“源1.0”。公开的数据显示,“源1.0”参数量高达2457亿,训练采用的中文数据集达5000GB,相比GPT-3的1750亿参数集、570GB训练数据,参数集规模提升了40%,训练数据规模提升近10倍。
在算力效率方面,源1.0大模型用4095PD(PetaFlop/s-day)的计算量,获得高达2457亿的参数量,计算效率处于业界领先水平。
“源1.0”聚合了AI最强算力平台、最优质的算法模型开发能力。这一能力使得其具备支撑和加速行业智能的构建,让各个行业具备可感知、自学习、可进化的能力,最终帮助用户完成业务智能转型升级,以具备通用性的智能巨量模型成就行业AI大脑。
模型参数增加的背后,是计算力需求的指数级增长。例如深度学习从2011年兴起到今天,对于算力的需求一直是指数级增长,每隔三四个月算力需求翻一倍。
此外,模型应用规模也在变大。随着AI的应用渗透到各个行业,并已经有了大量的AI开发平台,吸引了超百万的AI开发者,开发了各种AI应用和服务,这些AI开放平台每天承载着数万亿次的调用量,巨量的调用对计算中心的算力、应用产生了极大的挑战。
第三大挑战是AI生态问题。一方面,对从事AI技术研发的科研院所和科技公司而言,其研发成果如何与应用场景紧密结合是一道难题。而对于传统产业的企业而言,由于缺乏专业的AI人才,在应用AI技术时也没有能力自主开发算法模型。
埃森哲调查报告显示,70%以上的研究机构、科技公司在技术落地时缺需求场景、行业知识和数据,70%以上的行业用户缺技术人才、缺AI平台和实践能力。此外,在AI开发中由于各芯片厂商采用了不同的技术路线,导致芯片架构五花八门,相互无法兼容,且编程库与芯片绑定,带来灵活性不足的问题。再者AI开放框架虽多,但兼容性差;再加上AI平台之间服务接口标准不一,使得目前的AI产业不得不面临生态离散的挑战。
接下来,谁能全面、系统性地解决这些问题,谁就有可能成为智慧计算时代的弄潮儿。
3.计算系统多元创新,打造开放智算生态
多样化的智能场景需要多元化的算力,巨量化的模型、数据和应用规模需要巨量的算力,算力已经成为人工智能继续发展的重中之重。但是从芯片到算力的转化依然存在巨大鸿沟,多元算力价值并未得到充分释放。因此,如何快速完成芯片到计算系统的创新,已经成为推动整个人工智能产业发展的关键环节。
面对多元化的挑战,一方面计算软件将基于应用需求的拆解,对硬件能力进行适配管理,软件定义的范围和影响力将继续拓展,不仅可实现面向应用的整体系统资源调度和管理,还需针对网络、存储等个性化需求实现软硬解耦和资源灵活配置。另一方面计算硬件将通过与算法和框架等深度融合的专用定制,实现对特定应用需求的支持,最终完成异构之下AI算力的生产、聚合、调度和释放,实现智能计算中心的理想目标。
以浪潮信息发布的新版AIStation人工智能开发服务平台为例,其已经实现了对英伟达、寒武纪、昆仑芯、高通等6家国际及国内厂商的12款AI和GPU芯片的多元算力支持。AIStation基于虚拟化、容器化技术简化算力调度过程,能够将计算资源以标准算力模式提供给用户。同时提供一致的配额管理、共享超分、负载均衡等策略,帮助AI企业实现多元算力的统一池化及精细化调度,进一步提高AI计算资源利用率,降低运维成本,加速AI技术场景落地。
除此之外,为应对产业AI化的挑战、加速产业AI化的发展进程,早在2019年,浪潮就发布了“元脑生态”计划,聚焦产业AI化的落地应用需求,持续投入面向AI时代的计算力输出、服务能力优化及人才培养;促进生态伙伴的优势互补、强强联合,共同成就行业最终用户。
在IPF2021,浪潮再次发布了针对智算产业的“元脑生态2.0”、提出“智算合伙人”的生态主张。
元脑生态2.0的发布,就是为了更好应对当前行业智慧转型,伙伴所面临的技术、商业和生态等多重挑战。元脑生态2.0将是一个更加开放、包容的生态,不仅包括之前技术侧的芯片、算法等左手伙伴和应用侧的ISV、SI等右手伙伴,也将纳入分销、IVR、咨询、运维等更加多元的功能型伙伴,从智慧转型的全生命周期着手,实现全链条的交付与服务。
就在AICC 2021上,浪潮人工智能研究院正式发布“源1.0”开源开放计划,这一全球最大中文巨量模型将以开放API、开放数据集、开源代码等多种形式为业界提供开放合作。
其开放计划首先面向三类群体,一是高校或科研机构的人工智能研究团队,二是元脑生态合作伙伴,三是智能计算中心。面向第一类群体,“源1.0”将主要支撑在语言智能前沿领域的算法创新和方向探索;面向第二类群体,“源1.0”将主要支撑元脑生态伙伴开发行业示范性应用,如智能文本服务、语言翻译服务、内容生产服务等等,探索语言智能产业落地的“杀手级应用”;面向第三类群体,“源1.0”将作为算法基础设施,与智能计算中心算力基础设施高效协同,支撑AI产业化和产业AI化发展。
可以说,在事关智算产业发展最为重要的生态建设中,浪潮已经走到了前列。
4.拐点已至,我国企业正引领AI产业发展
2020年,我国提出加快构建“以国内大循环为主体、国内国际双循环相互促进”的发展格局。进入“十四五”开局年,数字经济成为经济发展破局的重要抓手,而在数字经济发展中,产业AI化则至关重要。
不难发现的是,面对产业AI化的发展困境,以浪潮信息为代表的我国企业正在积极贡献力量。
作为智算中心的提出者,浪潮信息的AI服务器市占率已位居全球第一,连续4年中国市场占比超过50%。
随着“源1.0”模型的开源,也让我们发现,浪潮一直活跃在AI前沿方向,在深度学习框架领域,浪潮信息先后推出了深度学习并行计算框架Caffe-MPI、全球首个FPGA高效AI计算开源框架TF2等等。2020年,浪潮信息在人工智能领域的专利贡献达到1174件,位居中国前列。
而顺着产业AI化的逻辑,浪潮信息正将作为算力基础设施的智能计算中心与作为算法基础设施的巨量模型进行协同,为产业AI提供强大的推动力,为行业客户创造更多的价值,更在引领AI产业的深度发展。
本文首发于微信公众号:甲子光年。文章内容属作者个人观点,不代表和讯网立场。投资者据此操作,风险请自担。
(李佳佳 HN153)