“玩转”17亿个小分子,盘古大模型家族又添新成员
AI正在成为千行百业智能化的新动能。但是在产业初期,不同行业、不同场景对AI的需求既复杂且碎片,同时AI人才也相对稀缺,所以很多企业靠人工去开发AI应用,成本高、效率低、落地慢。
在这样的背景下,解决AI的通用泛化、规模化复制等问题是AI快速落地行业应用的一道关键门槛。今年4月华为云发布盘古预训练大模型,就是希望通过建立一套通用、易用的人工智能开发工作流,以赋能更多的行业和开发者。可以说,盘古将成为各行各业AI通用的“轮子”,助力各行各业加速智能化转型。
在今年的华为全联接2021上,盘古家族再添新成员,专门面向药物研发领域推出的预训练大模型——华为云盘古药物分子大模型,随着该模型的落地,行业有望开启AI辅助药物研发的新模式,AI又将激活一个产业。
华为高级副总裁、华为云CEO、消费者云服务总裁张平安发布华为云盘古药物分子大模型
“新药研发通常投入超10亿美元、周期超10年,同时成功率往往不足1/10。”华为高级副总裁、华为云CEO、消费者云服务总裁张平安表示,药物分子的设计和芯片的设计一样非常难,投资大、周期长,失败率高。这些问题长期困扰制药行业,制药业的发展速度无法满足当下人类的各种健康需求,特别是新冠这样的突发疫情,以及癌症、海默症等一直没有特效药的顽症等,都对新药研发非常迫切。
传统的制药模式中,药物结构设计高度依赖专家经验、新药筛选失败率高、药企的投资回报率不断下降等情况使得行业迫切需要变革。而技术的进步恰好赋予制药业新的机遇:通过大数据、人工智能等科学技术加速新药研发进程、平衡研发投入与成果产出之间的关系,成为行业新的突破口。
华为云盘古药物分子大模型是由华为云与中国科学院上海药物研究所联合训练的、依托华为云一站式医疗研发平台EIHealth的面向药物研发领域的AI大模型。“该大模型学习了17亿个药物小分子的化学结构。在药物生成方面,实现了对小分子化合物的独特信息的深度表征、对靶点蛋白质的计算与匹配,以及对新分子生化属性的预测,从而高效生成药物新分子;在药物优化方面,实现了对筛选后的先导药进行定向优化。”华为云EI服务产品部总经理贾永利表示,华为云盘古药物分子大模型的落地有望革命性地提升新药的研发效率。
广谱抗菌药目前也有很大的市场需求,但是研发中困难重重,进度很慢。西安交通大学第一附属医院提出研发广谱抗菌药的新思路,通过华为云盘古药物分子大模型,在数字世界里针对这个靶点利用大模型计算去找出可能的一系列的药,然后再按照要求去做实验验证。这个项目进展验证了上述思路的可行性,先导药研发周期从数年缩短到一个月。
贾永利表示,“医疗专家只需要有个idea,剩下的交给AI通过大规模的运算去匹配,这将给制药行业带来巨大的变化。” 据了解,华为云盘古药物分子大模型具备四大技术和应用创新能力:第一,提出了针对化合物表征学习的全新深度学习网络架构;第二,进行了超大规模化合物表征模型的训练;第三,生成了拥有1亿个新化合物的数据库;第四,在20余项药物发现任务上实现性能最优。
华为云盘古药物分子大模型在20余项药物发现任务上实现性能最优
IDC的报告显示,过去三年,新药研发创新企业利用大数据和AI等新兴技术开展了大量的新药研发探索工作,取得了显著的收益,生物计算技术显现出巨大的发展前景。AI在药物研发的应用已经进入指数增长区,有数据显示,到2021年,全球Top44家药企中,有41家药企与AI公司有合作关系,占比为93%。显然,华为云盘古药物分子大模型的落地将为制药行业AI化再添一把火。
经过几年的高速发展,AI由虚入实,慢慢开始在越来越多的企业中落地,根据去年IDC的数据显示:得益于安防、智慧城市等AI应用场景的带动,AI在行业渗透,推动了政府、交通、公共事业、健康等行业的智能化提速。同时,AI也开始逐渐走进企业的核心生产系统,预计2025年AI对企业的渗透率可以达到86%。
但是,AI应用还面临着诸多挑战,如何降低AI的算法、模型开发门槛,让AI可以普惠,成为行业亟待解决的问题。今年4月华为云发布的盘古系列超大预训练模型包括中文语言(NLP)、视觉(CV)大模型,多模态大模型、科学计算大模型。这其中,盘古NLP大模型是业界首个千亿级生成与理解中文NLP大模型;华为云在视觉领域打造的包含超过30亿参数的CV大模型,也在不断突破行业的极限。
华为云盘古系列大模型的价值不仅是技术能力上的突破,更重要的是具备极强的泛化能力。通过与行业知识结合其能快速实现不同场景的适配,基于只需要“预训练+下游微调”就可以快速应用。随着盘古大模型的开放,各行各业的开发者不必再从零开始,只需在云上找到自己所需模型。这就如同造车企业没有必要自己造轮子,只需求从轮胎厂选择适合自己的轮子。可以说,盘古大模型就如同是各行各业的AI“轮子”工厂,只要选到最适合自己的,就可以快速奔跑起来。
“让AI从作坊式变成工厂式生产,减少对数据的依赖、对AI开发者的依赖,这就是盘古要解决的问题。”贾永利说。比如盘古CV大模型目前已经在医学影像、金融、工业质检等100余项实际任务中得到了验证,平均缩短开发时间 80% 以上,极大地提升了开发效率以及模型性能。再比如,盘古NLP大模型具备广泛的运用场景,在金融领域,可以辅助识别企业风险,助力企业尽调和项目审核。
以医药行业为例,AI在制药领域的难点最重要的有两个,一个是数据,AI模型的训练往往需要大量的数据,而数据往往又是制药公司的核心资产,被视为商业机密,在不同机构之间基本不会共享。第二个是适用于药物数据的全新的深度学习架构,药物数据不同于图片和文本数据,如何用深度学习的方法对药物数据进行建模是当前学术界的热点难题。
作为盘古家庭新成员,华为云盘古药物分子大模型作为医疗智能体药物研发引擎的核心,可以赋能传统的制药公司低成本,低门槛的构建起自己的企业级AI研发能力,可以帮助企业抢到AI药物研发这一波技术红利。
盘古大模型将一套通用的流水线复用到各种不同的场景里去,减少专家的干预和人为调优的消耗,从而降低人工智能开发的门槛和成本,让行业开始了工业化AI开发模式。
IDC 预测,全球 AI 市场支出将在 2021 年达到 850 亿美元,并在 2025 年增至 2000 亿美元,五年复合增长率(CAGR)约为 24.5%。2025 年,全球约 8% 的 AI 相关支出将来自于中国市场,市场规模在全球九个区域中位列第三。
随着AI投入的不断增加,特别是华为云盘古大规模推动AI进入工业化时代,缩短了传统行业走向智能化的距离,各行各业的智能化将迎来爆发式增长,智慧城市、智慧能源、智慧金融、智慧制造……越来越多的应用场景都将加上“智慧”二字。
华为一直围绕行业、围绕场景去深耕,找到真正的结合点。同时华为造“轮子”的目的不止于“轮子”,而是真正能飞奔起来的汽车。
比如在电力行业,传统的无人机智能巡检AI模型开发主要面临两大挑战:一是如何对海量数据进行高效标注;二是缺陷种类多达上百种,需要数十个AI识别模型,开发成本高。国网重庆永川供电公司应用无人机电力智能巡检技术,华为云合作应用了盘古 CV 大模型,样本筛选效率提升约 30 倍,筛选质量提升约 5 倍,以永川每天采集 5 万张高清图片为例,可节省人工标注时间 170 人天。这其中更为重要的是模型通用性,结合盘古搭载的自动数据增广以及类别自适应损失函数优化策略,可以做到一个模型适配上百种缺陷,一个模型就可以替代永川原来的 20 多个小模型,极大地减少了模型维护成本,平均精度提升 18.4%,模型开发成本降低 90%。
在金融行业,传统动产质押业务中有很多痛点,比如:因货源不清晰,导致“一物多抵”;因监管公司道德风险,导致“黄金变铜”;因缺乏数字化手段,导致过程监管成本高,流于形式;因缺乏处置平台,导致货物变现难。在浦发银行与华为联合打造的浦慧云仓项目中,需要实现货物进仓与融资放款匹配、还款与货品出库联动。浦发银行应用华为云盘古大模型,对叉车入库时的货堆进行精确计数,确保了货物入库的真实性;借助华为云盘古大模型的小样本学习能力,大大节省了识别仓库中上百种外观不同箱体的样本采集和标注工作量,明显缩短了项目上线周期。
通用AI加速行业智能化,反过来行业实践也会促进通用AI技术能力的提升。今天处于AI发展的初期阶段,造出AI的轮子,还要让轮子多跑、多转,然后再不断进行优化。在各行各业的充分历练,也将使得盘古获得更大的成长空间。