今天,数字技术开始深入生产生活的每一环节。
然而要推动数字产业的高水平发展,首先要确保拥有处理巨量数据的能力。随着数据被列入生产要素,算力已成为重要的生产力。根据 IDC 发布的《2020 全球计算力指数评估报告》,一国的算力指数每提高 1 个百分点,数字经济和 GDP 将分别增长 3.3‰和 1.8‰。
数字经济对算力的需求日益增大,加之新基建的东风,作为算力基础设施的数据中心、超算中心、智能计算中心也迈入加速发展阶段。工信部数据显示,截至 2020 年底,我国在用的数据中心机架超过 400 万架,年均增速超 30%。
算力 "突飞猛进" 的同时,市场认知却严重滞后。大多数人仍然对算力相关的概念比较陌生 —— 算力如何衡量?不同算力等级间有何区别?算力与应用场景如何匹配?
超级计算机被誉为 "国之重器",代表国家算力的最高水准,也是一国科技实力的重要体现。理解超级计算机的峰值算力,首先需要知道算力的计量单位 FLOPS(Floating-point operations per second)。
FLOPS 表示每秒浮点的运算次数。具体使用时,FLOPS 前面还会有一个字母常量,例如 TFLOPS、PFLOPS。这个字母 T、P 代表次数,T 代表每秒一万亿次,P 代表每秒一千万亿次。
除了运算次数,衡量算力水平时还要看算力精度。例如,1000FLOPS 的 AI 计算中心所提供的的算力,与 1000FLOPS 超级计算机提供的算力,虽然数值相同,但由于精度不同,实际算力水平也是天壤之别。
根据参与运算数据精度的不同,可把算力分为双精度算力(64 位,FP64)、单精度算力(32 位,FP32)、半精度算力(16 位,FP16)及整型算力(INT8、INT4)。数字位数越高,意味着精度越高,能够支持的运算复杂程度就越高,适配的应用场景也就越广。
超级计算机常被用于需要大量运算的工作,譬如天气预报、运算化学、分子模型、天体物理模拟等,是为高精尖科学领域提供极致算力的服务。由于这类科学领域的计算对数据精度要求高,因此通常的超算系统以双精度数值计算为主。
近年来,AI 在国内获得快速发展,为匹配 AI 训练与推理的特殊需求,AI 超算系统应运而生。不同于传统超算,AI 超算系统大多用于语音、图片或视频的处理,浮点计算下的低精度计算甚至整型计算即可满足相应需求。
要确定不同精度算力的性能,需通过各自领域内的专用测试程序来测试。例如,用于测试超级计算机性能的 Linpack 测试专注于双精度算力;用于智能计算机性能的 Resnet-50 则专注于半精度算力。
如果将参与运算的数据比作货物,那么双精度算力就可以看作重型卡车,低精度算力可以看作是小型货车。重型卡车也可以承担小型货车的任务,但功耗过高,会造成浪费。而小型货车由于自身性能限制,无法承担重型卡车的任务。
同样,超级计算机的双精度算力即可以看作是重型卡车,是一种 "通用算力",可以承担各种计算任务;而单精度、低精度算力作为小型货车,则是一种 "专用算力",是专门为 AI 的训练和推理设计,无法承担超级计算机的计算任务。
" 超级计算机设计的目标是为做更复杂的计算,所以即使只是做简单的计算,它的功耗还是很高。" 中国科学院计算技术研究所研究员张云泉此前曾对媒体表示,AI 计算擅长于推理或训练,但多数不具备高精度数值计算能力,这也限制其在 AI 计算之外的应用场景使用。
随着数字化与千行百业的深度结合,每个行业、每个企业都面临着选择算力的问题。需要注意的是,仅关注理论层面的最高算力并无太大意义,落到实际应用场景里,还需要综合考虑用户应用、成本、算力兼容性等多方面因素,寻找效率更高且经济适用的有效算力。
在选择芯片与算力时,首先需明确应用场景和优先任务。在早期规划阶段,地方政府即需要重视区域内的优势产业、明确数据中心的应用目标。智算中心融合了 AI 技术与专用算力,在图像分类、自然语言处理、循环翻译等场景下较有优势;超算中心则作为尖端科技领域的强大战力,服务于行星模拟、分子药物设计、基因分析等需要高精度数据处理的领域,应用领域更为广阔。
在追求最佳算力时,成本也是关注重点。一方面,算力基础设施的建设成本极高,在前期规划时,需要关注市场逻辑,重视经济可行性。粤港澳大湾区曾出现过同一地区的两个智能计算中心,同精度算力单价相差近 4 倍的情况。为避免出现 "高价高数值,低能低性价比" 的情况,引入算力中心时应重考察算力单价,关注算力的实际效益。
此外,加强算力基础设施的顶层设计和总体规划,倡导开放、多元、兼容的新型算力基础设施,能使基础设施的利用率大幅提升。底层基础设施搭建开放性架构,不仅能够提供多种算力、提升基础设施的易用度和适用度,还能够支撑更加丰富的应用场景,同时赋能社会治理和产业应用。