
【划重点】
- 关于公共数据共享的“百慕大原则”是人类基因组计划所留下的宝贵遗产,推动了后续新冠数据共享等共识,但是具有身份辨识度的医疗信息不应该被共享。
- 尽管任意两个人之间的遗传差异小于0.1%,但差异位点超过300万个,且人类遗传变异的分布不是随机的。为了推动基因组学应用而避免导致全球健康状况不平等,需要在研究中纳入不同祖源和地理来源的个体。
- 算法生物学正以更高的精度描绘并预测我们的身体。以海量数据作为基础的生物学已形成了一个新的“医疗-工业联合体”,提供更加个性化和更加精准的诊疗。但是它也将生物医学更紧密地归拢到科技巨头身边,这些科技巨头期望将数据整合并从中获取利益。这对隐私、数据所有权和算法准确性提出了重要挑战。
- 精准医疗已经日渐走入我们的生活,但它只有以一种既有价值、又可负担的形式存在,它才能发挥出它的最大潜力。但如果只关注精准医疗是否负担得起,而不考虑它的真正的价值,可能会导致与赋能医疗效率的工具本质大相径庭。
- 研究者应该停止把种族作为一个解释健康、疾病、药物反应等问题的生物学变量。让来自不同群体的人都能够获得平等参与研究(包括临床试验)的机会并从中受益,同时让科学家有更丰富的资源来增进对人类生物学的理解。
- 超过3000万人可以获得他们详细的基因组数据。基因组数据的大众化可以帮助家庭重聚(以及疾病诊疗),但亲属之间的遗传物质相关性意味着使用较小的数据库就可以识别大部分人群,包括不在数据库中的人群。DNA数据的高维度和连锁不平衡意味着通过数据混合以及部分遮盖的方式来保护个人数据的方法可能行不通。
- 全球原住民数据联盟(Global Indigenous Data Alliance)在关爱原则(集体利益、控制权、责任和道德)之外补充了公平原则(可查找、可访问、可交互、可复用),让数据具备更广阔的的应用场景,可以保护数据的安全同时更好地为数据的使用提供机会。
学者Kathryn Maxson Jones以及Robert Cook-Deegan谈到,分享数据可以拯救无数生命。关于公共数据共享的“百慕大原则”是在HGP(Human Genome Project)组装首个人类的参考基因组时所留下的宝贵遗产。从20世纪90年代之后,这些原则成为了开放科学的试金石。
1996年2月,HGP的领导人们齐聚在百慕大来讨论如何来加快人类参考基因组组装的进程。尽管有一些顾虑,但委员会还是一致同意所有测序中心都需在24小时内在线上传他们的数据,以及在出版物发表之前分享数据,但是大部分机构在出版之前会限制数据的传播范围,有的甚至会在文章发表之后仍然对数据保密。百慕大原则在那时还是非常独特的,他们希望HGP资助的项目都可以在一天之内将数据开放给所有人。践行这一原则并不容易,但当时的HGP解决了所面临的挑战,这也促使了如今数据共享的行业共识。
John Sulston和Robert Waterston等在线虫生物学中倡导的数据共享,成了践行百慕大原则这一前卫想法的良好先例;同时,24小时内公开数据的想法也仍然是一种倡导而非强制要求,具备灵活性让小型机构在不同监管环境下参与。同时,也发生过强制现象,例如HGP最大赞助方曾收到监管方严厉的信件,要求其遵循百慕大原则,否则将会被剔除国际测序联盟。
百慕大原则后来扩展到不同的社群,并且推动了很多类似倡议的诞生。例如在当前的新冠病毒肺炎的危机中,及时的数据共享就成了一个非常重要的共识。SARS-CoV-2病毒的基因组序列被迅速地组装鉴定并且在2020年1月10日公布,揭开了后续疫苗研发和临床试验的序幕。COVID-19宿主遗传学倡议以全球共享流感数据倡议为基础,迅速而公开地将数据传播出去。
当然,数据的共享不是也不应该针对所有数据。例如,具有个人信息辨识度的医疗数据不应该像人类基因组一样进行公开处理。许多社群采用了出版前分享的策略,并取得了较好的成功。就像研究阿尔茨海默症的组织、蒙特利尔神经研究所和马里奥·内格里研究所的“开放科学”实验以及由结构基因组学联合会等。

Charles N. Rotimi, Shawneequa L. Callier和Amy R. Bentley在本部分讨论到,尽管我们在非洲拥有共同的祖先起源,并且任意两个人之间的遗传差异也非常小(低于0.1%),但是这一个人的基因组可以携带超过300万个差异位点,并且人类遗传变异的分布并不是随机的,在不同祖源和不同地理位置的群体之间,基因组(以及其他非遗传因素)存在较大差异。
但长久以来,基因组学的研究主要集中在欧洲血统的基因组上(编者注:这种情况在近10年有显著改变)。多样性和和具有代表性人群应同等重视已提升到基因组学领域的共识。
随着这种共识的不断发展,我们必须尽力理解和传播这些信息:
- 两个来自撒哈拉以南的非洲国家的人在遗传上的差异可能超过一个欧洲人和一个亚洲人之间的差异;
- 有的特有的遗传变异只能在非洲人群中发现,因为在约10万年前离开非洲去世界其他地方的族群只携带了当时的一小部分变异;
- 非洲的生态环境在人类基因组上留下了一些印记(如某些增加肾衰竭可能的变异),这些变异只在那些有来自非洲特定区域的祖先的人群中可以找到。
同样的,也有一部分具有医学意义或历史意义的突变在非洲人群中罕见或不存在。例如在亚洲、欧洲和美洲,由于与远古人类的近亲(例如尼安德特人)杂交而引入的一些基因组区域具备易感糖尿病或易感病毒的生物学功能。为了在全球推进基因组学在技术领域、临床、公共卫生领域的应用而又不会进一步导致全球健康状况不平等,我们需要在研究中纳入不同祖源和地理来源的个体。
为了应对这些困难,在基因组学研究中对于人群多样性的关注正在日益增加。许多项目,例如TOPMed、All of Us计划、国际常见病联盟(International Common Disease Alliance)、非洲人类遗传与健康项目(H3Africa)、百万退伍军人计划、GenomeAsia和COVID全球联盟等,正推动研究参与者的多样性,而在此过程中,研究者本身的多样性也同样值得关注。基因组学研究需要在研究分析和结论中更加重视不同的样本,并且将资源集中在能力培养、消除障碍以建立多样化的研究队伍。
Hallam Stevens首先提到一个例子,在2000年,加州大学圣克鲁斯分校的研究生Jim Kent用几个星期近乎疯狂地发明了第一个基因组组装软件——GigAssembler,能够将全球不同实验室产出的数以百万计的DNA序列片段组装在一起,形成人类基因组的草图。几乎同一时间,Celera Genomics收购了Paracel,后者是一家主要设计情报收集软件的公司。Paracel拥有经过特殊设计的文本匹配的硬件和软件,可以用于在基因组中迅速搜索基因。
2005年以后,像摩尔定律一样飞速发展的高通量测序技术生产出了越来越多的数据,需要更快的算法来建立索引并搜索。生物学借鉴了工业界的大数据方法,同时也推动了计算机科学的前沿发展。
生物信息学和计算生物学围绕算法的交叉也为生物医学带来了新的形式和新的市场。以海量数据作为基础的生物学已经形成了一个新的“医疗-工业联合体”,提供更加个性化和更加精确的诊断和治疗。将个体基因型与数据库进行比较的算法催生了一系列关于健康管理和疾病风险预测的方法,像23andMe这样的直接面向消费者的基因组学公司可以利用算法来向公众赋能一个更健康、更快乐、更长久的生活方式。
这一现状对隐私、数据所有权和算法准确性等提出了重要的挑战,特别是如果我们期待基因组学避免成为监视的媒介,就需要尽快解决这些问题。很多科技公司通过使用机器学习的手段将日益增长的生物学数据和其他形式的个人数据相结合——我们去哪里,买什么,和谁交往,喜欢什么?而长期以来,我们对基因组学的期待一直受到隐私、歧视、社会分裂等因素的限制。算法生物学(Algorithmic biology)正在以更高的精度描绘并预测我们的身体,但是它也将生物医学更紧密地归拢到那些科技巨头身边,这些科技巨头期望将数据整合并从中获取利益。
PRS也强调了基因组学中种族和祖源的重要相关性。最近一项分析表明,在之前的26项研究当中,以非洲和南亚血统为主的人群PRS预测能力显著要差于欧洲血统的人群,证实了一些早期的研究并作出了扩展。一些其他的群体缺乏数据来进行准确评估,研究人员将这一结果归因于非欧洲群体在数据集中的代表性不足。
对于PRS的不同预测能力,研究者专门为非洲血统的人群开发了一些PRS算法,并且科学家们还在研究是否每个不同的族群都需要基于特定祖先的PRS。但这些研究结果很容易引导人们对种族的关注,而不是考虑社会不平等对于健康的影响,让人们错误地认为种族之间的特征差异主要源于基因。科学中的不公正可能是因为缺少某些群体,同时也可能是错误地包括了某些群体,包括不同国家和地区的群体样本研究等。
(备注:以上中文信息翻译自英文材料,仅供个人学术探讨,不代表任何机构的观点,详细详细请以原文为主,见参考资料)

浙江大学博士,联川生物
版权所有,未经允许不得转载。基因慧—数字生命健康产业内容平台 » Science封面纪念人类基因组工作草图绘制完成20周年:数据共享与安全,价值应用与公平