
图:高歌老师(来源/受访者提供)
笔者第一次与高歌老师取得联系时接近凌晨一点,彼时他态度谦和地解释自己刚刚开完会,忙碌——是笔者对高歌老师的第一印象。
在访谈的过程中,高歌老师说道:“把问题想清楚很多时候比盲目的“炼丹”更有意义。作为生物信息学工作者,开发出对大家有用的方法是我们的核心使命之一。”
作为生物信息学领域专家,高歌及团队一直关注着迅速发展的单细胞测序技术。与传统的bulk数据相比,单细胞数据具有规模大(百万级细胞)、噪声高(dropout, batch effect)、异构性强等特点,如何通过开发新的计算方法实现对这些宝贵数据的有效利用已成为当今生物信息学领域关注的重点与热点。
图:Multi-omics single-cell data integration and regulatory inference with graph-linked embedding(来源 /Nature Biotechnology )
2022年5月2日,北京大学/昌平实验室高歌课题组于Nature Biotechnology发表题为Multi-omics single-cell data integration and regulatory inference with graph-linked embedding的研究论文,提出了基于图耦联策略的深度学习方法GLUE,首次实现了对百万级单细胞多组学数据的无监督精准整合与调控推断。
划重点
2、设计GLUE的目的旨在全面地刻画细胞内的基因调控状态、揭示调控机制,为前沿精准医学研究提供线索;
3、与Seurat等目前主流单细胞跨组学整合算法相比,GLUE的主要优势在于提出了不依赖于特征转换的整合方法;
4、GLUE可容易地扩充以支持如单细胞Ribo-seq、空间转录组等更多组学类型数据整合。
……(更多精彩,请阅读本期深度专访!)
我国生物信息学界的新突破
从2009年以来,高通量单细胞测序技术得以快速发展,逐渐从单细胞转录组测序,发展到染色质开放组、DNA甲基化组、组蛋白修饰组等等在内的多组学分析。但是,大部分单细胞组学测序技术在一个单细胞中只能检测一种组学,这样的数据对于细胞状态的刻画是片面的,无法完整地反应细胞内的基因调控状态;而这些组学数据又具有非常高的维度和噪音,且特征空间存在差异,给数据整合造成了很大的困难。因此,我们希望通过开发建立合适的计算方法与模型,解决当前的跨组学计算整合挑战,提高数据整合精度,充分利用这些宝贵数据以更全面地刻画细胞内的基因调控状态、揭示调控机制,为前沿精准医学研究提供线索。
GLUE的全称是Graph Linked Unified Embedding,即图耦联统一嵌入,它的特点是提出了全新的图耦联(graph-linking)策略,将不同组学的低维隐空间表示关联起来并确保其“语义一致性”。
图:GLUE模型的结构示意图(来源/北京大学生物医学前沿创新中心)
与Seurat等目前主流单细胞跨组学整合算法相比,GLUE的主要优势在于提出了不依赖于特征转换的整合方法。Seurat等方法在进行具体整合工作前需要将不同组学数据转换为同一组特征(一般是基因特征),会造成显著的信息损失。具体来说:Drop-ChIP的数据与ATAC相似都是比较高维、稀疏的,如果使用Seurat的话在特征转换这一步就会损失一部分细胞类型分辨率;另外,取决于Drop-ChIP检测的组蛋白修饰,如果是抑制性修饰的话,数据还需要进行反转,导致进一步的信息损失同时提高内存消耗。
图:GLUE首次实现了图谱级超大规模单细胞多组学数据的准确整合。与同类工具相比,GLUE在细胞分辨率与叠合精度方面均具有显著的优势。(来源/北京大学生物医学前沿创新中心)
总体来说,GLUE优势包括以下四点:
- 多组学整合的精度高;
- 可支持任意数量、调控方向的跨组学数据匹配:通过引入组学特异的变分自编码器(Variational AutoEncoder, VAE)组件堆叠,支持对多组学非配对数据的无监督整合;
- 计算可扩展性(Scalability)强:计算复杂度与细胞数之间呈亚线性关联,是同类方法中唯一可以精准分析上百万单细胞的方法;
- 可同时进行调控推断:在先验调控图中直接对调控关系进行了建模,还可综合先验调控信息与多组学数据统计相关性,实现可靠的转录调控推断。
用正确的方法做对的事
例如,早期我们曾尝试借鉴图像学习领域的CycleGAN模型,使用循环一致性损失(cycle-consistency loss)来保证非配对多模态数据整合的准确性,但我们反复琢磨后意识到CycleGAN模型并不是完全依赖循环一致性损失保证整合正确性的,图像领域基于卷积的特殊编码、解码网络结构等图像领域的先验知识对于结果正确性有着不可替代的重要作用,这让我们意识到在数据整合中先验知识的重要性,进而提出了基于图模型在神经网络中引入组学数据先验信息的思路;与此同时,我们通过在模型设计中创造性的引入了非线性编码器(Encoder)与线性解码器(Decoder)组合,在提高计算效率的同时显著改善了结果的可解释性,这也成为了最终采取的图耦联(Graph-linked)策略的雏形。
在这个过程中我们也碰到了若干困难,如在百万级细胞图谱整合的工作中,发现我们的整合结果与原文作者给出的注释存在不一致的情况。很长一段时间里误以为是我们搞错了,经过反复检查才得以确认我们的结果是正确的的,最终这些结果也得到了原文作者的认可。
回头来看,这段经历不仅让我们有机会系统性地检验了整个工作,也进一步坚定了我们对所采用的从基础出发、理性设计模型而非简单修补以“炼丹”(Making it right before making it better)这一基本理念的信心。
把问题想清楚有时比盲目“炼丹”更有意义
目前,GLUE所有代码均已开源发布,可以作为一个通用的框架支持进一步的开发与优化(https://github.com/gao-lab/GLUE)。
我们鼓励并期待来自生物信息学、基因组学、数据科学和AI研究等领域的专家和人才充分碰撞与合作,在GLUE的基础上进一步引入、改进或设计全新的计算模型,来充分地挖掘海量单细胞数据中隐藏的生命科学新现象、新规律与新法则。
在此过程中的关键是要“用正确的方法做对的事情”——计算手法可以复杂、但模型应该是可以理解的(understandable);计算过程可能繁复、但结果需要是可以解释的(interpretable),把问题想清楚很多时候比盲目的“炼丹”更有意义。
工作的顺利推进需要多面支持
论文作者介绍

查看论文>>https://www.nature.com/articles/s41587-022-01284-4
GLUE代码获取>>https://github.com/gao-lab/GLUE
作者丨张琪 审核 | 高歌
首发丨基因慧 关键词 | 单细胞多组学;生命科学;
往期推荐
【声明】为了推动基因及数字生命健康科技推广、产业发展及政产学研用连接,基因慧秉持专业、赋能、中立的立场收集、分析及发布相关信息。但由于时效性及行业特殊性,所刊登内容仅供研究参考,未经说明不作为决策依据;本文相关信息不代表基因慧的观点;基因慧平台刊登的原创内容的知识产权为“基因慧”商标拥有者及相关权利人所有;欢迎转载,转载请申请并注明来源。欢迎个人及机构投稿及合作。
☆ 连续五年发布基因行业蓝皮书
☆ 中国遗传学会生物产业促进委员会委员
☆ 广东省精准医学应用学会政策研究应用分会常委
☆ 深圳市健康产业发展促进会副会长单位
☆ 主办数字健康私董会、大湾区生命健康创新论坛
版权所有,未经允许不得转载。基因慧—数字生命健康产业内容平台 » 大咖论健97期 | 专访北大高歌:基于深度学习的单细胞多组学数据整合