“多组学+AI”宝藏如何挖矿?看第11届NGS创新开发者大会笔记

“多组学+AI”宝藏如何挖矿?看第11届NGS创新开发者大会笔记

RmFicvQBAkgBJ4sibF985CB53GqXpdUXJY1ibXic4tk7cicKMPtgyMRqWYUopq6yOghicWK3LOe3qL8V3Rjia4kHVKgsA

多组学生物大数据,以数字化、结构化、强关联等特点成为AI的重大应用领域,“多组学+AI”是生命科技和生物产业的宝矿,具体有哪些“挖矿”点?

在郝向稳先生组织的第11届NGS多组学创新开发者大会上,基因慧创始人汪亮先生受邀主持。基因慧作为协办单位分享大会报告要点如下(仅供科普)。更多内容见基因慧启动的《“生物大数据+AI”蓝皮书》,诚邀战略合作机构联合发布。

01 生物大模型

根据阿里云的王征博士在会上报告,生命语言模型分为蛋白语言模型(Protein Language Model, PLM)和基因语言模型(GenomicLanguage Model, GLM)。

蛋白语言模型包括AlphaFold系列、ESM系列、ProGen系列等,基因语言模型包括NT、Evo、DNABERT等。蛋白质序列短且精炼,其建模方法相对DNA序列(具有长序列、随机性和冗余等特点)更容易标准化。Evo 等模型尝试采用SSM(状态空间模型),替代谷歌提出的Transformer 架构,实现更高效的长序列训练,但理解能力还需加强。
 
在具体的生物大模型方面,阿里云建立了生物语言统一模型LucaOne和LucaPro,训练数据涵盖了近17万个物种的核酸和蛋白质序列,基于自监督与半监督学习架构,学习中心法则。阿里云还建立了GENERator和GENERanno模型,基于6mer 分词器(优于 BPE 和单核酸分词器)生成模型,用于序列设计(基因调控元件、RNA疫苗、密码子优化等)、基因注释和序列分析(增强子活性预测、抗药性预测、物种分类/识别等)。
 
根据李丕栋博士的报告,百图生科(BioMap)开发了xTrimo发现助手,实现智能拆解科研问题,配置工具和参数,生成代码并执行,形成最终研究报告和自适应迭代。此外,百图生科开发了xTrimoMonomerFast,实现速度更快的蛋白结构预测模型(相对AlphaFold2)。

02生物大模型+药物发现

基于生物语言统一模型LucaPro,阿里云联合中山大学发现了迄今为止最大的RNA病毒(47,250个核苷酸长度)。该成果发表在Cell《细胞》杂志封面(DOI: 10.1016/j.cell.2024.09.027)。具体地,通过对全球各地生物环境中一万余份宏转录组进行测序,通过序列同源性聚集、结合序列表征器和蛋白质结构预训练模型进行分类和鉴定。
 
2023年10月,赛诺菲与百图生科签署战略合作协议。双方基于 BioMap 的蛋白大模型,开发一组用于突破性生物疗法的 AI 任务大模型。此次交易总金额(含里程碑付款)超 10 亿美元,这标志着大型药企从购买药物分子进入了购买 AI 模型的新阶段。

03 生物大模型+菌种改造

根据中国科学院天津工业生物技术研究所马红武研究员的报告,菌种开发技术从诱变筛选(定向进化)、代谢工程(基于知识开源导流)发展到合成生物学(基于数据模型驱动)。
 
当前菌种改造主要基于知识经验。大语言模型提供了从语言文本掌握理解专业知识的能力(和潜力);通用模型(例如 GPT-4o)虽能达到一定专家水平,但其数据不够全面,多为基础知识,且存在严重的 “幻觉”,模型生成的文献并非真实可靠。
 
基于Meta的Llama2 13B和961份学术杂志的文献,菌种改造智能助手SynBioGPT可在一定程度提供专家级指导。SynBioGPT 1.0实现了以LLM替代人从文献提取结构化数据构建高质量数据库,SynBioGPT 2.0实现将复杂查询拆解为子问题并引入关键词搜索策略,逐篇文献提取结构化数据,建立菌种代谢工程改造数据库和知识图谱。

同时,我们仍需认识到,目前细胞改造相关的数据还远远不够。为提高细胞改造的成功率,应将更多过程整合到模型中,并测定更全面的参数。

04生物大模型+罕见病诊断

根据华大基因研发技术总监彭继光博士的报告,数据解读正成为基因检测行业的瓶颈,成本占总流程比例从2018年的33%有望上升到56%。Evo2、AlphaMissense等大模型做了相关摸索,但无法直接用于临床,特别是罕见病诊断方面需要充分结合基因型(功能分析、人群频率、家系分析等)和临床表型数据。

华大基因建立了基因检测大模型 GeneT,并纳入了 ACMG 的变异评级。该模型利用公开数据构建了包含 1000 个阳性位点和 1000 个阴性位点的测试集,还通过超 1 万例临床真实样本进行了验证,从而实现了全自动报告及高准确率,其中推荐位点数 Top30 达到 99.8%,Top4 的准确率为 94%。此外,通过知识库,GeneT 还覆盖了检测前、检测中和检测后的智能咨询。

05 转录调控神经网络+损伤修复

军事医学科学院的孙昱博士提出,约 2 米长的 DNA 被压缩在微米级的细胞核上。为了节省资源,数据流与信息流重合,所以其情况极度复杂,主要表现在跨尺度(不同分辨率)、高维度(三维结构)、多模态(DNA 突变、RNA 转录、甲基化等)等方面,这使得建模和分析变得十分困难。

特别是基因转录调控系统,具有多变量协同计算、长程相互作用、非线性计算、液-液相分离、3D空间结构约束等方面的复杂度。

面对基因大数据难以建模的挑战,可通过数据增强、数据整合、数据挖掘和应用等方面来实现突破。具体而言,结合 Hi-C 技术与基因表达数据,并基于图神经网络的链路预测以及 xAI(可解释 AI),将基因大数据建模应用于损伤修复机理研究。
●数据增强:基于Hi-C技术(染色质构象捕捉技术),通过染色质高级结构约束下的基因表达调控数据,实现两个数量级的数据分辨率提升;
● 数据整合:基于图神经网络和xAI整合多组学信息,利用DNA-DNA,基因-基因,细胞-细胞的邻结关系,联合节点特征(DNA、表达、空间位置等),建立表征大模型。
● 数据挖掘和应用:通过调控网络上的链路预测,识别潜在的生物标志物,应用到特殊损伤和复杂疾病的关键机理的研究转化。

06 未来存储:DNA存储

DNA存储是以DN为介质代替硬盘、磁带来存储数据,具有信息存储密度高、材料成本低、保存时间久等特点。

DNA概念机于2012年前后诞生,目前在小试的系统迭代过程中,其中,DNA Script 推出的台式 DNA 合成仪已实现了 0.001 美元 / 碱基(约 1000 美元 / Mb)的成本。目前的关键是通过算法进一步提高密度,加快降低DNA合成成本并提高合成速率。更多详情见基因慧于2022年联合深圳华大生命科学研究院、腾讯医疗健康等联合发布的《DNA存储蓝皮书》

DNA存储基于DNA合成、编码解码、测序三大核心步骤,与本文的大模型当前没有直接的关系。但基因慧认为,当前的大模型在强调数据大、算法准、应用广的同时,需要加大重视存储的核心基础设施。大型机构一年的数据存储服务器的电费已达到300万元(不包括硬件、软件及运营成本等)。

根据中国科学院北京基因组研究所(国家生物信息中心)陈非研究员的报告,国家生物信息中心构建DNA活字块,可以合成一次,打印一万次。
具体的,按照一定标准筛选生成活字序列构建活字库,创建活字密码本,将编码文件进行分割并分配地址活字、内容活字和校验活字,按照密码本将二进制数据与DNA活字进行映射,最后通过活字酶拼接成活字块,进而在体内/体外保存。
据此,国家生物信息中心研发了“毕昇一号”打印机,实现打印速度4byte/s,单次打印量约6μL,打印准确率99.99%,更重要的是存储成本为122美元/Mb。

07 古基因组学+文化传播

古基因组学指的是基于远古人类及动植物的基因组的研究和转化,融合了历史人类学、演化语言学、考古学、分子生物学,从80年代开始,到2010年达到第一个兴盛时期。2022年,诺贝尔生理学或医学奖被授予瑞典科学家斯万特·佩博,以表彰他在已灭绝古人类基因组和人类进化研究方面所做出的贡献。

古基因组与生物大数据没有直接的联系,但是基因组学基础研究的前沿方向,也是法医、考古等领域的重要技术手段,在人类起源、文化传播、疾病形成等方面有重要应用,是生物大数据与AI的重大潜在应用场景,传播历史脉络和文化自信。
根据复旦大学王传超研究员、陈璐研究员、四川大学考古科学中心何光林副研究员的报告,2017年国内古人类基因组研究接近空白。全世界共有1090例古人基因组发表,国内仅有1例;但发展到2023年,国内共有十余家院校建有古DNA实验室,发表东亚古人基因组850余例,王传超团队署名发表超350例;到2025年,搜集100多处考古遗址的5000多余例古人遗骨,通过设计芯片建立了超300多个人群4000余例样本。
在文化传播等方面,古基因组证实和发现了很多有趣的结论,进行了系列有前瞻价值的研究和探索:
● 基于古基因组学研究,证实了黄河流域中上游新石器时代农业人群的遗传连续性,与考古学上的仰韶文化及其他人群向周边地区扩张过程是吻合的。
● 通过与台湾考古学家合作,实证台湾古人和高山族与祖国大陆人群同根同源。
● 基于山东18个遗址的69例古基因组数据,证实大汶口时期和商周时期,山东人群受到黄河中游农业人群的影响,在秦汉之后的人群的遗传结构与现代基本一致。
● 通过和公安部门合作,古DNA技术协助进行重大刑事案件的DNA鉴定和咨询工作,和军队相关部门合作协助鉴定烈士遗骸。
● 根据现在人类基因中古基因组的渗透,陈璐研究员推测有一个至今尚无任何化石
的古人类对现在人类产生了影响。
● 四川大学华西医院罕见病研究院开展大规模人群基因组计划的同时,在古基因组视野下研究中国群体遗传演化历史及生物适应性(包括动植物)。

08 保障:组装、测序、捕获等

生物大数据在研究、转化和应用的同时,需要继续开发和优化基础保障体系,在本次会议中提到的主题包括:参考序列的组装及质量评价、高通测序仪等基因数据生产设备和TFT新材料的开发、复杂基因组的探针捕获技术等。

在生物计量层面,中国计量科学研究院生物计量创新团队带头人王晶研究员提出,生物计量近年愈发受到重视,正在加快相关工作。国际计量局(BIPM)于2002年正式成立生物分析工作组(BWAG),中国计量科学研究院于2005年成立生物计量研究团队,在基因方面,2016年启动中华精标准计划(GSCG),2023年建立全国生物表型标准化工作组。2024年,由王晶和傅博强作为联合项目负责人主导起草国际标准《生物技术 核酸合成第2部分:合成基因片段、基因和基因组的生产和质量控制要求》,这也是我国主导制定的首个合成基因质量控制国际标准。

在体外诊断的标准化方面,中国食品药品检定研究院体外诊断试剂检定所的黄杰研究员提出,全国有超过50个国家启动国别基因组计划,2025年我国的国家标准《人全基因组高通量测序数据评价方法》发布。在测序数据质量的验证方面,需要纳入比对率、GC含量、有效深度、重复片段比率、碱基错配比例、特定区域覆盖率等,需要更高要求、更系统的评估。目前Q40定义不统一,未来针对Q值评估需要进一步优化。
 
从参考基因组方面,中国科学院北京基因组研究所(国家生物信息中心)的康禹研究员提出,持续完整、准确的参考序列是研究的保障,T2T-Q100理论上是可行的。康禹研究员联合首次在世界范围内成功完成从端粒到端粒的中国人全基因组——“唐尧”基因组(T2T-YAO),选择父母本中质量值较高的常染色体及性染色体组成一套单倍体参考基因组,其质量达到了Q74.69。
 
在基因数据生产设备、材料和关键技术方面,今是科技的苏云鹏展示了产出Q30序列的国产纳米孔测序仪的性能。真迈生物CTO孙雷、齐碳科技研发VP 林建勋、赛陆医疗CTO刘二凯、普译生物CTO宋广涛等测序企业代表,在圆桌环节讨论了不同代际的测序数据质量评价和提升。领挚科技(LinkZill)的合伙人康康展示了薄膜晶体管(TFT)在皮升液滴调控、微阵列反应控制、原位信号传感的性能,以及TFT在高通量DNA合成等方面的应用前景。艾吉泰康的联合创始人屈武斌介绍了十年专注研发的高通量oligo合成平台及多重PCR引物设计平台,实现日合成200万条的通量、错误率千分之一。会上,艾吉泰康的屈武斌、蔡万世联合北京林业大学薄文浩教授、艾斯基因CEO张巨永、寻因生物创始人焦少灼、Element中区销售总监马熟军发布“捕获万物 Capture All”计划。
 
《“生物大数据+AI”蓝皮书》启动
招募联合发布方与创新案例
合作邮箱:lily@genonet.cn  
合作微信:jiyinhui_1

【声明】为了推动生命科技普惠和生物产业发展,基因慧秉持专业、赋能、中立的立场收集、分析及发布相关行业信息;但由于时效性及技术迭代特殊性,所刊登内容仅供研究参考,不作为临床诊疗及投融资等决策依据。本文相关信息不代表基因慧的观点。基因慧平台刊登的原创内容的知识产权为“基因慧”商标拥有者及相关权利人所有;欢迎转载,转载请申请并注明来源。欢迎在基因慧平台合作推广先进的技术、产品及市场成果以及产业规划、行业咨询及市场调研。

扩展阅读

基因检测与肿瘤防控

 关于基因慧 

基因慧是一家生物产业服务平台,创立于2015年,提供产业规划、行研和产业数字化等服务。团队基于深耕行业十余年的专家智库和数据库,联合90%的头部机构构连续8年发布生物行业蓝皮书,执笔国家级产业白皮书,为多个地区规划生物产业,参与组织发布行业专家共识和标准,致力于推动生命科技普惠和产业融合发展。

▼  点击 ” 阅读原文 “,查看精选文章