中新经纬3月9日电 题:构建中医药多模态大模型迫在眉睫
作者 程京 全国****,中国工程院院士、生物芯片北京国家工程研究中心主任
2023年,ChatGPT的出现标志着人工智能行业进入到了以大模型为代表的快速发展阶段。2024年初Sora所产出的视频更是加速了AGI发展的步伐。未来基础大模型与行业大模型的结合将会成为AGI时代的操作系统,为各行业领域开启第四次产业革命。
大模型已经从ChatGPT文本信息对话、DALL.E文本生成图片走到了最近的Sora文本生成视频。而英伟达CEO黄仁勋、中国工程院院士张亚勤、360集团创始人兼董事长周鸿祎等认为AI大模型的下一站是生命健康,解码生命语言编码,最大限度接近人类“永生”的梦想。
生命现象本质也是一种自然进化的精密语言编码,尤其是生命科学领域中微观世界的分子序列数据,这种语言编码与自然语言具有许多相似之处,例如,蛋白质可以通过一个代表着氨基酸的字符序列表示,这与自然语言具有语法限制类似。
近年来,AI已经具备了理解真实世界的能力,AI制药也将会迎来新的飞速发展。但残酷的现实是,目前全球范围内还未有AI开发的药物能够成功穿越临床Ⅱ期试验的“死亡之谷”。据不完全统计,2023年全球至少有6条已进入临床阶段的AI药物管线停止研发,且都倒在了关键性临床Ⅱ期。这可能是因为目前可供AI训练的生命信息数据不够多,理解还不够聪明。
在创新药物领域,中国90%以上的原创药物来自国外,90%以上的药品标准来自国外,一旦遭遇极端封锁的情况,我们极有可能在这个事关人民健康和生命安全的医疗领域被别人“卡住脖子”,这势必影响到国家的安全和稳定。
幸运的是,中国拥有自己的医学宝库,历史悠久的中医药对人体、疾病、药物的认识积累了庞大的实践经验,然而这座蕴含了中华民族几千年的生命健康经验的中医药宝库正在被其他发达国家抢占,中医药原创理论“针灸与经络”是被抢占的典例。在医学四大顶刊及Cell、Nature、Science主刊发表的24篇针灸论文中,哈佛大学医学院发表数量13篇位列首位。
除此之外,国际医药界也正利用其资金、技术、人才等优势,积极开展中医药研究,开发高附加值产品,瑞士的罗氏制药以八角、茴香中药作为原料生产磷酸奥司他韦,从1公斤八角、茴香到生产“达菲”附加值跃升逾1100倍。中国传统中药冬虫夏草,瑞士诺华制药将其开发为价值达1万元人民币/盒的芬戈莫德,国外医药界以此攫取了中药的高附加价值。
大模型的快速发展使其已经具备了理解模拟世界的能力,大模型与医药行业的结合有望革新药物研发范式,而数据是大模型变得“聪明”的关键,中医药几千年积累的知识宝库作为优质数据资源需要尽快占领,构建中医药多模态大模型,抢占中医药大模型高地迫在眉睫。
而目前国内提出的中医药大模型普遍以中医药传统经验知识图谱作为训练数据,缺乏与生命底层语言的作用联系和颠覆性创新。由于生命是核酸和蛋白质等物质组成的分子体系,它具有不断繁殖后代以及对外界产生反应的能力。当人患病服用中药后,药物成分就会与体内的分子物质,如核酸、蛋白质、糖等产生作用而发挥疗效,过程中涉及人体疾病生命语言靶标发现、中药对人体生命分子作用功能的大规模底层实验数据、中医药算力算法等复杂计算和实验、临床论证过程等。为了促进中药传承创新,现建议如下:
在十四五计划科技研发专项中,尽快设立重大专项,支持大学和企业联合开展“用颠覆性技术构建中医药AI大模型”重大系统化工程,打造从底层中医药知识数据和实验数据、中药功能评价算法工具、中药新产品开发智能平台综合解决方案的大模型赋能产业生态。开发符合中国人生命语言特点的原创中国药,用创新中药守住中国人生命健康红线。(中新经纬APP)
中新经纬版权所有,未经授权,不得转载或以其它方式使用。
责任编辑:宋亚芬