过去的一年里,全球核酸药物研发和产业化驶入快车道,基因编辑疗法在欧美创新药市场的商业化落地也预示着基因治疗再一次步入全新的起点。随着生物医学进入精准医学时代,我国在大数据分析、组学研究等领域已具备一定优势,但从引领“解码”生命构造到率先“征服”疾病,仍面临临床转化能力不足的瓶颈问题。
“精准医学研究的基础是生物医学大数据,而大数据的‘解码’需要既精通生物遗传学又精通人工智能、大数据等信息技术的复合型人才。”中国科学院院士、北京翊博生物集团首席科学家陈润生在接受第一财经专访时如是说。
近日,教育部表态要新设5个新医学类相关专业,其中就包括生物医药数据科学。作为国内第一位讲述生物信息学课程的老师,陈润生表示,而今,数学、计算机和生命科学领域的交叉人才培养已经被我国提上了一个新的高度。
陈润生认为,随着ChatGPT为代表的人工智能技术进步,生物信息学有望取得变革性突破,但同时也为复合型人才培养提出了更高的要求。真正能够推动生命科学进步的复合型人才,不是简单的学术跨界,而是经过系统性培养后,在生物学和信息学领域都处于行业拔尖水平的科学家。与此同时,他们还要具备临床医学素养和转化思维,可以将新的疾病研究信息和未满足的临床需求结合起来,切实推动新医药研发。
大模型时代,生物信息学进入“快车道”
上世纪90年代,中国参与到后来被称为“二十世纪三大科学计划”之一的人类基因组计划,承担了其中1%的任务。其间,陈润生发现解析人类的遗传密码需要运用信息学手段对基因组数据进行一系列的加工和分析,是一个多学科高度交叉的全新领域,于是,他率先在中国科学院研究生院(中国科学院大学的前身)开设生物信息学课程。
生物信息学是结合生物学、计算机科学和信息技术来分析和解释生物数据的跨学科的领域。当陈润生团队开展生物信息学研究时,该学科在国内外还非常冷门。但三十多年来,生物医学大数据研究已为多种难治性和常见性疾病的诊断与治疗带来许多新技术、新方法,如基因诊断、基因治疗、靶向药物等。
在陈润生看来,至少从几十年前人类启动基因组计划开始,生物学研究就进入大数据时代。但对于如何才能充分解析生物大数据,人类社会在近些年才交出一份较为满意的答卷——以大模型为代表的生成式人工智能。
陈润生认为,大模型的出现,为数据“解码”提供了一个可靠而高效的平台。
如果要用一种通俗易懂的方式去描述大模型如何运作,陈润生认为可以将其视为“为组学数据研究搭建了一个复杂的神经网络”。
同理,在大模型这个神经网络中,研究人员可以先通过一遍遍输入基因组学数据,让大模型一次次接收并改变数据间连接的参数。等大模型学习到一定次数后,会自发形成“系统收敛”,即实现知识存储。接下来,大模型再学习转录组数据,在大模型中将这两种组学数据进行融合训练,继而大模型就拥有了基因组数据和转录组数据相互作用的能力。推而广之,大模型可以实现“多模态融合”。
“自然语言处理能力和多模态融合,是大模型真正区别于此前AI技术的关键。”陈润生说,过去,基于单模态处理能力,AI技术在生物学领域已具备结构预测的优势。比如,AlphaFold2可以很好地预测蛋白质的结构,预测精度达到了实验的90%以上,也说明这种技术是可用的。
随着大模型出现,在陈润生看来,通过多模态分析,以整体方式探究生物系统的相互连接,进一步增进了人类对细胞途径、疾病机制和遗传变异的理解,推动了精准医学的发展。“精准医学研究已成为新一轮国家科技竞争的战略制高点,而其基础就是生物医学大数据。”
伴随精准医学研究的国际角逐愈演愈烈,大模型在全球引发“百模大战”,陈润生认为,首先应该明确的是,尽管人工智能具备预学习和多模态处理能力,但并不意味着可以解放对复合型人才的需求,相反对于生物信息学人才要求更高了;而聚焦到我国生物医学的发展问题,目前,在大模型的“量”上跑赢了,但在“质”上还落后于全球领先水平;在生物医学的基础研究中处于领先水平,但临床转化能力还存在明显短板。
陈润生进一步分析,前者是因为缺少既懂AI又懂理论生物学的复合型人才组成的研发团队,后者是因为大学、科研院所等从事基础科研的场所,往往缺乏内部转化的接口和外部转化的生态链。
推动临床转化的下一步
陈润生认为,尽管做学术跨界的科研人员越来越多,但他们难以真正取代复合型人才。再进一步来说,如果没有复合型人才构成的研发团队,只是通过科技企业和生物医药企业合作的方式,进行大模型在生物医药领域应用开拓,其沟通效率和实际产品的“垂直应用”能力均会大打折扣。
“如果做网络的人不知道什么时候机器将知识学好了,做(生物分子)结构的人不知道提供这些知识用来干什么,双方连对对方团队描述的很多东西都听不懂,如何合作?如果是这样的团队搭建的医学大模型,即便数量再多,也难以真正及实际科研之需。”陈润生抛出了这一观点。
在他看来,真正的复合型人才需要“根基扎实”,从头开始培养。
陈润生回顾其学生时代时表示,大学期间,他读的是生物物理系,但5年时间有4年都是与数学系、物理系和化学系的人一起学习。即高等数学按照数学系的培养模式,高等物理按照物理系的培养模式,高等化学按照化学系的培养模式,直至第五年,他才开始学习细胞学和胚胎学等。
虽然彼时“生物信息学”作为一门学科尚未面世,但“这是老一辈教育家培养交叉学科人才的智慧。”陈润生称。
虽然当前我国对交叉人才培养愈发重视,但陈润生也表示,即便是复合型的科研人才,可以承担源头创新的科研任务,但大多数情况,也只是临床转化中的一环。对比发达国家,我国在基础研究阶段已有赶超趋势,但临床转化的道路“道阻且长”,不断涌现的基础科研成果,并没有在成果端得到效率体现。作为应对,既需要科研人员具备转化思维,也需要培植一整套生态链。单纯依靠鼓励科学家创业,只会是杯水车薪。
尤其是在走进产业界之后,陈润生更加深刻地体会到,“自己始终只是技术的提供者”,无法凭借一己之力让原始发现转化成一款成熟的产品,最终走向临床应用。
他还提到,我国多数的高校和科研院所也缺乏最直接的内部转化通道。“在欧美国家,基础研究和转化之间的连接是比较紧密的。除了科研机构外,高校也会培养一定的保障性机构,作为转化的结构,比如做专利申请的律师团队等。”
临床转化能力的提升,在大数据、大模型时代显得尤为迫切。陈润生提示称,大模型的出现可能会加剧全球范围内的知识垄断,放大创新药研发的国家间差距。我国已积累了相当体量的基础研究成果,亟须催生出更多相关转化产品。在服务于未满足临床需求的同时,实现更多个性化诊疗数据的积累,反过来继续推动基础研究的进步。
此外,随着我国自主研发的大模型如雨后春笋般不断出现、迭代,陈润生建议,还需从国家层面统筹考虑,在保护大模型知识产权的同时,创设更多有利于大模型间衔接整合和数据流通的保障机制,乃至可以建立国家级的生物医疗大模型,以提升大模型的训练量级。“只有多方协同合作,数据融合才能真正向‘精准医学’方向迈进。”