“为什么伊马替尼这么贵?电影《我不是药神》讲述了一群善良的人因格列卫(伊马替尼)价格昂贵而去冒险犯罪的故事,甚至惊动了总理亲自批示将其纳入医保。但实际上药企定价昂贵是有原因的,因为药品研发实在太缓慢,(格列卫)花了42年,且研发过程中有好几次差点流产,投入的成本不可估量,定价高也是必然的。”近日,在一次行业会议上,中国科学院北京基因组研究所研究员方向东对包括21世纪经济报道在内的媒体指出,缩短药品研发周期便显得尤为关键。
目前,在业内形成的一个观点是,计算助力生物医药行业可最大发挥药物效益,大大提升研发效率。
中科院计算技术研究所高性能中心主任谭光明教授向21世纪经济报道记者举例分析称,自从谷歌AlphaFold2算法问世后,不仅可将试验时间从几年缩短成几小时,投入成本也骤降为几万美元,准确率相较传统实验也毫不逊色。总之就是用计算机先帮助减少试错成本,将1万次生物试验降到100次或者10次。
计算医学的本质是采用密集数据驱动的科研范式,以人工智能为方法,以超算为支撑,可以始终系统全局性看待生命。用定量的方法去探寻数据和知识中蕴藏的生命规律和基本机制,并用工程学的方法,为生物和医学提供服务。
谭光明认为一、二期临床试验数据表现很好的药,三期临床试验照样可能失败。必须要有新技术打破固有的“天花板”,拥抱新技术有可能失败,但也最可能成功,依靠生化技术推动的医药产业效率不断在下降。一种极有潜力的趋势是构建新技术体系,将药物从试验驱动推向数字驱动,推动供给侧提供高效优质的产品。
医和药的困局
在上述行业会议上,中科院计算所西部高等技术研究院常务副院长张春明指出,目前医药领域面临的挑战有三:第一,靶点发现的技术红利已结束,新技术还没起效;第二,临床试验是“死亡之谷”,难以跨越;第三,疾病临床用药有效性差,市场差异化竞争困难。
其中,差异化竞争困难原因是中国药企产品同质化严重。美国很多药研发成功,商业化便能成功,但中国很多药研发出来,商业化却以失败告终,所以需呼吁产业创新。
学术上认可的事情,商业却并不一定成功。华夏基金控股子公司总经理、清华大学内科学博士陈斌认为,科学高地上的问题转化为一些工业界的问题,并且融入到工业的价值链当中去,这才是商业上成功的前提条件。
近年来,虽然国内生物药获批数量逐年上升,但创新度仍然不足,创新药研发仍以热门靶点为主,同质化严重,赛道非常拥挤。有些热门靶点如PD-1、PD-L1、BTK等,很多企业都在做,甚至100多家企业挤在一个赛道,存在一定的盲目性。
中科院计算所-哲源·图灵-达尔文实验室副主任赵宇认为,大数据对一些医药企业来说并不是工具,而是泥潭。“尽管数据的生产已经工业化,但是数据的理解与使用的能力还是非常欠缺,尤其在生物和医药领域更加明显。”
多维异构的组学数据应用到临床会有断层,其主要体现在两方面,首先是临床医生看不懂数据,不会在诊疗中使用数据帮助患者。另外,发表的高水平文章不能有效解决临床实际遇到的问题。方向东表示,搭建知识网络就是用临床医生及下游开发人员看得懂的语言将科学发现表达出来的过程。
数据的生产和理解完全失衡,所以生命科学和医学的发展需要新的技术引擎。医药产业一直是以生化技术一条腿支撑,沿着这条技术路线中国的医药产业不可能超欧美发达国家,只有计算技术才能提供新的机会,才可能实现弯道超车。
张春明表示,放眼生物医药产业和研究,生化技术的红利已走到尽头,缺少新技术平台,而计算医学,可为医药提供生化技术之外一个新技术体系,把工作搬到计算机上,计算机干80%的事,人干20%的事。计算医学平台不仅能提高成功率,还能缩小实验规模,节约成本。据各大研究机构评估,其可为新药研发节省近500亿美元的研发经费,真正实现了药物的研发时间减半、投入减半,临床有效率提高一倍。所以计算机跟生物化学一结合就“无敌”了。
计算医学技术体系
尽管一个非小细胞肺癌肿瘤细胞里有大概200多个体细胞突变,但其中人类认识的、且对临床治疗有帮助的极少,能在临床实践中作为标志物的不超过十个。其他两百个变异尽管对肿瘤生长和功能也是必要的,但在解读中未起到任何作用,其实是因为不了解而已。
利用数据模型便可有效提升对其了解程度。中科院计算所-哲源·图灵-达尔文实验室主任、细胞生物学与系统生物学博士牛钢介绍称,基因突变会引发细胞内的确定性后果,这个后果可以测量和分析,所以接下来不需要任何生物学知识就可搭建各种数据模型和深度学习框架来模拟真实细胞,并进一步通过知识模块解读任何真实细胞功能。
按细胞功能重新解读得到的人类和疾病相关的功能数据叫基线数据,了解基线数据尤为重要。牛钢表示,只有根据基线数据进行预判,才能提前做好病人的全流程管理。例肺腺癌,得到患者肿瘤的功能信息后,首先要判断其转移方向,其次要判断肿瘤预后(例如预测患者OS),最后需判断治疗时机是否合适(例如抗血管药物的使用)及免疫药物是否适用等。如发生亚克隆进化,则需了解其进化方向。
张春明也表示,从基因到细胞行为,再到疾病表现可通过数学方法建立联系,并能以此方式判断临床治疗的有效性并给予解释,甚至还能筛选最合适的人群做实验以达到最好的药物效果。
计算医学解决的问题是将人类的知识用在生产实践和科研领域里面。在药物研发领域,可用知识图谱融合人类全部知识写一本“书”,例如AI写了一本书《关于自闭症的一切》可以将人类研究者发表的五万六千多篇文献做了一个系统的梳理和总结。知识图谱在IT领域是共识化的概念,但领域专用的知识图谱考验融合能力。
生物医学数据库里有3000多万篇文献,计算医学的根本假设是将其全部利用起来,但如何利用成为难点。牛钢介绍,第一步需将研究内容相关的最核心概念抓出来,抓的过程就是重新梳理知识的分布,因从众心理导致的知识扎堆,所以要将虚高的压下来。第二步是要重构核心内容,AI需要在没有任何先验知识情况下进行,因此需要经过几轮迭代,最后获得真正相关的内容。第三步是分类提取知识颗粒,每一个类别代表当前这个领域的一个特定的方向或研究热点。最后,利用相关数据库提取基因相互作用、信号通路、药物及其它注释信息,这样就可将知识和数据的增量附加到每一个人类已经建立认知的领域中。
张春明表示,在新冠肺炎全球大流行早期,尚未有大量相关文献报道的时候,运用知识图谱技术挖掘了14000多篇有关冠状病毒的文献,通过梳理得出两个结论:一是降血压药氯沙坦能够预防新冠病人的危重症,二是一种小分子药物C21能作为治疗新冠肺炎的潜在药物。这两个结论第一个去年被美国AHA列为心脏病的十大进展,而小分子药物C21之后被一家英国药企注册并进入临床二期,目前效果理想。
计算医学需要超强的高性能计算支撑。谭光明教授表示,由于现在没有通用软件,有通用的知识没有通用的算法,因此需要用超算做支撑,但超算买起来容易,用起来难,这涉及到“并行优化技术”。作为计算所战略布局,“生物医学大数据”研究已达20年,可以快速高效地处理海量数据(603138,股吧)。
在应用领域方面,张春明称,可用模型不同的组合构建面向应用的接口型工具,并根据不同需求增加工具以构建药物的数字实验场景,从算靶点、算结构至人药匹配,以真正利用平台解决问题。
计算医学赋能医药产业
一种药不会适合所有病人,利用计算医学平台选出最适合的人群,差异化竞争,提高药物的成功率很关键。张春明表示,计算医学平台要对上述场景实现全覆盖,少量临床试验数据上了平台,可通过数据分析选出药物最适合的人群,通过选择优势人群保证药物成功的典型代表是易瑞沙。
本来药可卖给十个人,筛选后很可能只卖给两个人,也可能卖给更多人,这可能会令药企感到矛盾,但利用平台筛选出最适合的人群主要有三个优点。张春明指出,第一是可以认证为突破性疗法,缩短进医保的时间;第二是优势人群明确,因此可对药品进行差异化定价;第三可使药品在适应症上疗效更好,帮助研发企业提高内功。
据临床试验的数据,可推测出药物优势人群的特征,并可据特征,推断该药还对哪些疾病有效。
一种药研发成功来之不易,市场上10%的药能拓展适应症,通过平台可扩大上亿人市场,能大大增加药的价值。例CDK4/6抑制剂,辉瑞、诺华、礼来三家已经在激素阳性Her2阴性乳腺癌下展示了巨大商业价值,全球也开展了上百组新适应症临床探索,但所费不赀,而且临床试验旷日持久。而计算医学指导下的药物数字研发平台,以新技术已经帮助CDK4/6抑制剂“算出”若干新适应症,其中一种新适应症指向一个全球无药的罕见病——“脊索瘤”,临床实践中,经AI判断适用的,手术、放疗治疗均失败的反反复复发作的脊索瘤患者,单药治疗三周后,肿瘤即缩减37%。而另外几种新适应症是非罕见肿瘤,这为全球药物研发决策带来广阔想象空间。
更值得一提的是,全球每个月都有大量失败的创新药,可通过计算医学平台发现未知靶点,创造新的产业集群,重建临床失败药的价值。
张春明也强调,计算医学的数字药物实验场不会取代药企,就是二八原则,80%上计算机干,20%还得人做。但是使用计算医学技术的企业,一定会去替代那些不使用计算医学技术的企业,趋势如此。
(作者:朱萍,魏笑 编辑:徐旭)
(张洋 HN080)