近几年,AI for Science(AI4S)研究范式大热,人工智能(AI)开始在科研产业转型中扮演着越来越重要的角色。在合成生物学领域,通过借助AI计算的底层建设能力,产品研发逐渐从实验化、经验化走向了数字化、智能化,进而实现从生物合成向数字合成转变。
而转变成功与否,“数字基座”稳不稳是关键——通过建立科学、精准、高效的计算平台,进而缩短合成生物学“从无到有”的造物时间。
SynGears™平台,是欣贝莱计算团队整合基因组解析 (Genome Analysis)、进化分析 (Evolution)、人工智能 (Artificial Intelligence)、理性设计 (Rational Design)和筛选 (Screening)等前沿技术(“Gears”)自建的支持合成生物全场景设计的生物计算平台,从前端设计到中下游开发,SynGears™平台可为生物合成途径挖掘、催化元件筛选和工业酶优化改造等场景提供高效、有效的数字化解决方案。
图 | SynGears™平台构成
作为加速数据、模型、算力和实验深度融合的“数字基座”,SynGears™平台和齿轮(Gears)的传动效用类似,发挥着推动欣贝莱生物合成研究和产业化进程的独特作用:聚焦大健康领域,通过数据挖掘与分析、算法开发/模型构建等,实现“干湿结合”研究模式的迭代优化与升级,以辅助欣贝莱进行大宗医药原料、食品原料以及系列新型活性原料的研究开发和落地生产。
“基于多组学联合分析,从海量数据中去伪存真,筛选出重点代谢通路、基因和代谢产物等数据,并完成数据资源的标准化存储。”
处理多种数据类型(数据多模态)是合成生物学研究的重要挑战之一,这需要长期稳健的数据工程建设。
欣贝莱计算团队具备出色的基因组大数据挖掘能力,可基于多组学联合分析,从海量数据中去伪存真,筛选出重点代谢通路、基因和代谢产物等数据,并完成数据资源的标准化存储——以此搭建形成了SynGears™平台自有的天然产物综合组学(基因组、转录组、蛋白组和代谢组)数据库和特色酶(结构与活性功能)数据库。
图 | 部分天然产物及其活性效用
目前,该数据库已涵盖数千个物种的天然产物合成基因簇及数以万计的酶结构与酶活性功能数据,并在不断丰富与动态更新中,以实现生物系统从原料、元件到细胞的多尺度集成分析。
图 | 天然产物P450酶分析
“在数据资源储备的基础之上,通过算法开发和大语言模型构建,实现干湿结合的研究闭环,加快数据到实验的研发进程。”
强大的数据资源为深入探索生物合成研究提供了支撑。基于该数据资源及AI+理性设计的一体化设置,SynGears™平台可完成从算法开发/模型构建到数据分析的一站式高通量计算任务,并通过积累湿实验团队反馈的验证结果迭代优化算法,形成干湿结合的研究闭环。
图 | 干湿结合的研究闭环
借助深度学习模型识别酶-底物结合作用,平台能对大量未知功能酶进行高通量筛选和个性化分析,以获取实际研究生产所需、得率远超预期的特定酶,大大加快从数据到实验的研发进程。
同时,SynGears™平台还具备高精准度的一流酶改造能力——以构建深度学习(DL)大模型为载体,欣贝莱已实现通过深⼊学习和理解蛋白序列底层特征的智能工业酶优化,链接中下游的开发生产。
目前,欣贝莱计算团队开发和测试了多种不同原理的突变体计算软件与算法以构建模型,对突变体的预测准确率和筛选活性等均已达到行业前沿水平,未来还将创新实现0样本预测任务。
“通过聚焦大健康领域,助力欣贝莱进行大宗医药原料、食品原料以及系列新型活性原料的创新开发,或根据既定药物分子/目标产品设计全新合成路线或新酶,大幅缩短‘造物’时间。”
合成生物学通过天然产物生物合成研究赋能健康食品和生物医药等大健康领域,实现了颠覆式、低成本和可持续的创新。欣贝莱SynGears™平台的搭建,则为该进程按下了“快进键”。
图 | SynGears™平台赋能大健康领域
SynGears™平台含括数据分析、算法开发和模型构建等多种功能模块,但并非对这些底层技术进行简单的堆叠相加,而是根据研发实际需求组合各功能模块,助力大数据在合成生物学领域各个研发环节的全场景设计及应用实现。
在研发前段基因筛选、活性改造之外,工业菌株及工业酶的稳定性优化对于中下游生产放大和工业应用至关重要。SynGears™平台能够利用计算机辅助设计,定位出酶的柔性与刚性区域,并针对柔性区域进行刚性改造,以大幅提升相关酶稳定性,实现稳定工业生产、合成生物学技术对现有市场的降本增效。
数据挖掘与算法/模型构建在研发上的高效应用,离不开强大的算力支持。现阶段,SynGears™平台已配套高数量级硬件设备支撑运行,是由AI驱动的支持全场景通用研究的高算力“数字基座”。随着自有数据库积累、算法开发优化和模型应用训练的深入,平台将不断迭代升级,朝着更大规模、更一体化的方向发展。
作为欣贝莱数字合成蓝图构建的起点,SynGears™平台为揭示天然产物的进化规律、理解生物合成酶,甚至设计改造生物合成体系创造非天然分子提供了可能。未来,平台将加强与研发、生产的链接,进一步深化“干湿结合”研究闭环,以真正意义上实现数据、模型、算力和实验的深度融合,通过全场景设计赋能欣贝莱在大健康领域的创新开发。