如果将人体的细胞煮沸,只有四种物质:基因、蛋白质、脂质和碳水化合物。相对而言,脂质和碳水化合物比较简单,也不容易出错,剩下最重要的就是基因和蛋白质。
我们对基因的了解已经很深入:从2001年人类基因组计划发布第一张人类基因组草图,到2021年公布第一张完整人类基因组图谱。
现在还剩下的最大的谜团就是蛋白质组。行业现在争论的是,如何解开这个谜团?
美国生物学家Todd Colub在发表于《Nature》的一篇文章中提到,“在获得全局的基因数据之前,人们难以区分信号与噪音。”人类基因组计划开启了数据驱动的科学研究范式, 那以百万为计量单位的蛋白质组,也将遵循数据驱动的研究范式,珞米生命科技创始人(Nanomics)创始人兼CEO吴昊认为。
从假设驱动到数据驱动这种研究范式的变迁,意味着人类对于蛋白质的研究重点将从确定假设以及验证假设向获取全局的蛋白质组数据迁移,而这正是珞米生命科技正在做的事情。
真正意义上的蛋白质组学有两个核心指标:深度和广度。即如何同时获得细胞发挥作用的所有蛋白质,而不是像过去一样简单地通过单个蛋白质进行研究。
珞米生命科技成立于2021年,是一家人工智能和蛋白质组学大数据驱动的精准医学公司,主要通过其独创的新一代数字化蛋白质组学平台Kepler Pro开发海量纳米探针,实现高通量、大规模地富集蛋白质组数据,继而加速蛋白质生物标记物发现、临床病人分层、药物开发、疾病早筛诊断的应用。该平台预计将于年底搭建完成,第一代试剂盒与自动化设备预计将于明年初开始销售。
融资方面,2022年4月,珞米生命科技宣布完成两轮共近千万美元融资,其中Pre-A轮由碧桂园创投领投,波士顿早期基金Taihill Venture跟投,天使轮领投方线性资本持续加码。
蛋白质组(Proteome)是指一个细胞或组织由整个基因组表达的全部蛋白质。蛋白质组学(Proteomics)是采用大规模、高通量、系统化的方法,从整体的角度分析细胞或组织内动态变化的蛋白质组成成分、表达水平和修饰状态及蛋白质之间的相互作用,目的在于揭示蛋白质功能与细胞生命活动规律的学科。
蛋白质组研究可以为疾病标志物的筛选、临床试验病人分层、药效评估和监测、疾病机制研究、植物抗逆机理研究、发育机制研究等方向提供技术手段,为精准医疗、药物靶点研究、药效分析等提供支持。
蛋白质组最早由澳大利亚科学家 Marc Wilkins于1994年提出,并在1997年由苏黎世联邦理工大学的 Peter James 首次在文章中应用。
2001年《Nature》和《Science》分别报道了人类基因组计划草图完成。然而基因只是遗传密码,在生命活动中真正发挥作用的是蛋白质,同年《Nature》专刊宣布了人类蛋白质组学组织(HUPO)成立,2003年人类肝脏蛋白质组计划正式启动,标志着人类蛋白质组计划正式开始。
关于人类蛋白质组计划的开始,吴昊博士认为有两个底层原因。
第一,越来越多的证据表明基因转录的数量与蛋白质丰度之间没有线性关系,具体来说,即便基因决定了蛋白质,但基因的数量难以决定蛋白质的数量,这意味着即便检测出了人类的基因组,但也难以了解蛋白质组。
第二,相比于基因组,蛋白质组层面的信息更能全面地反应疾病状态。
吴昊在芝加哥大学获得工程博士学位,师从美国三国院士,拥有多学科交叉背景。其博士课题受到美国材料基因组计划支持,这是一个由时任美国总统奥巴马发起的,旨在通过大数据和人工智能来发现更多功能性材料的科研计划。吴昊博士表示,虽然最终的应用不一样,但是Nanomics现在做的事情与其博士研究经历,整体的方法学高度一致。
吴昊也曾在美国著名早期生命科学风险投资公司ARCH Venture Partners从事前沿生物科技公司孵化。在进行项目调研时,吴昊发现美国有大量的高科技生命科学公司做底层赋能工具,而中国则多集中在下游应用层。类比到移动互联网,就像是iOS系统/安卓系统和各种APP应用。基因组龙头企业Illumina和蛋白质组先驱Quanterix就是ARCH孵化成立的。这两家分别是做基因组和蛋白组的试剂和设备。
人类基因组计划开启了数据驱动的生命科学研究范式。经典的假设驱动的研究范式之下,研究人员通过日常实验观察归纳得出一个规律(假设),再通过实验去验证假设。
但这种研究范式的局限性在于研究者观察到的所谓“事实”是高度不确定的,受研究者自身研究水平、实验条件、实验预期等主客观因素影响,其假设的“事实”可能是片面的。
具体到蛋白质组,过去都是使用抗体或者类似物,一个一个地去捕捉蛋白质,研究其功能。即研究人员假设发现了一种蛋白质,之后针对这种蛋白质设计抗体,再对蛋白质进行抓取,最后验证抓取的蛋白质是否与假设一致。
这种方式存在两个弊端,第一,通过观察事实得出假设并不容易,往往经历一个很长的周期,同时这是一个线性的过程,一旦验证失败,只能推倒重来;第二,因为认知有限,研究本身的范围是被限制的,这种情况下难以实现规模化。
于是从2016年左右开始,行业出现了新一代蛋白质组公司,主要集中在美国和欧洲。这些公司并不预设假设,而是更关心如何呈现蛋白质组的全貌。他们做的事情是将蛋白质的数据尽可能地都抓出来,珞米生命科技也是其中之一。
珞米生命科技处于整个蛋白质组学产业链条的上游,主要为进行蛋白质组学研究的创新药企、诊断公司、CRO、研究机构提供软硬件工具。一方面,之前在美国做医疗投资的经历让吴昊看到,生命科学的发展,不管是创新药还是疾病早筛,是强烈依赖于底层工作的进步;另一方面,从基因组学的市场发展来看,基因组学上游工具的供应方具有较高的技术壁垒和议价权,慢慢渗透到下游应用层,后来有了无创产前检查、伴随诊断等临床应用。
在吴昊看来,对于处于更早期的蛋白质组学来说,其发展也会遵循类似路径:先要有能将上游赋能工具做好的公司。这是现阶段制约蛋白质组学从科研走向临床的核心瓶颈,包括了半导体、纳米材料、微流控等所谓的“卡脖子“技术。上游工具也是现阶段欧美蛋白质组学公司布局最多的地方。据吴昊介绍,目前看到国内蛋白质组学公司,更多的是选择去做科研服务或者临床应用。
“从国内来看,我们公司是非主流。但从世界范围来看,我们是主流。“ 吴昊博士这样介绍国内外蛋白质组学的行业格局。
但吴昊也表示,蛋白质组学走向临床的速度要远快于基因组学。比如今天单细胞基因组学发展这么多年,还没有走到临床,蛋白质组学已经有了临床应用。通过人工智能和蛋白质大数据,美国公司InterVenn已经开发出了世界上第一个用于卵巢癌诊断的LDT产品。
在吴昊看来,现阶段生命科学行业还处于从自动化、数字化到智能化的转变过程中。今天中国生命科学行业正在往上游走。如何打造一套高通量数据挖掘平台,是后续商业化和临床转化成功的关键,尤其在组学领域。
针对目前蛋白质组学上游存在的痛点问题,珞米生命科技自主研发了基于纳米工程、微流控、人工智能的技术平台,实现计算和实验闭环,该平台可以系统性地设计、合成和筛选数万种具有独特物理结构的纳米探针,实现从单一样本中同时捕捉和检出丰度跨越10个数量级的上千种蛋白质,并且通过筛选不同纳米探针的组合,有望能够高通量地搜寻和访问整个蛋白质组物理空间。
该平台主要涉及的环节有:基于人工智能和分子模拟筛选蛋白质亲合体;通过3D微流控平台高通量合成纳米探针;利用智能自动化样本处理工作站实现高通量标准化采集数据;经过AI驱动生信平台完成大数据分析,并指导湿实验的开展。湿实验得到的数据最终也会用来调整算法,使其算法越来越准确。
珞米生命科技的该平台预计将于年底搭建完成,第一代试剂盒与自动化工作站预计将于明年初开始销售。
“做了一年多,很多人表示看不懂,我们有时候也会怀疑自己:做的是不是太前沿了,国内外都没有发现跟我们类似技术路径的。直到2022年5月26日,Flagship Pioneering官宣了成功孵化ProFound Therapeutics,并投入7500万美元,用最先进的蛋白质检测技术,来扩大人类未知的蛋白质组,继而加速药物和诊断的开发。”吴昊坦言前沿交叉学科创新带来的挑战。
对于珞米生命科技而言,现阶段面临的最大问题还是人才问题。据吴昊介绍,因为行业才刚刚开始,拥有交叉学科背景的人才非常少,我们需要的人,既要懂人工智能算法,又要懂工程,还要了解生物基本原理。目前珞米生命科技正在招聘计算生物学和生物信息学方向的人才,感兴趣者可与小饭桌取得联系。