原创韩斐然基因慧2021年02月06日 02:06。

2001年人类基因组工作草图绘制完成以来，基因数据快速应用普惠于民，基因产业得以发展，同时存在不少问题。2021年2月5日，人类基因组工作草图发表20周年之际，Science期刊邀请数位学者回顾和展望，重点谈到基因数据共享与安全、价值应用和公平的问题及思路，韩斐然博士受邀在基因慧平台发布内容摘译，仅供个人学术探讨。原文 | Science 翻译 | 韩斐然编辑 | Barney 关键词 | 数据共享数据安全

图：Human Genome at 20（来源/Science）

【划重点】

关于公共数据共享的“百慕大原则”是人类基因组计划所留下的宝贵遗产，推动了后续新冠数据共享等共识，但是具有身份辨识度的医疗信息不应该被共享。

尽管任意两个人之间的遗传差异小于0.1%，但差异位点超过300万个，且人类遗传变异的分布不是随机的。为了推动基因组学应用而避免导致全球健康状况不平等，需要在研究中纳入不同祖源和地理来源的个体。

算法生物学正以更高的精度描绘并预测我们的身体。以海量数据作为基础的生物学已形成了一个新的“医疗-工业联合体”，提供更加个性化和更加精准的诊疗。但是它也将生物医学更紧密地归拢到科技巨头身边，这些科技巨头期望将数据整合并从中获取利益。这对隐私、数据所有权和算法准确性提出了重要挑战。

精准医疗已经日渐走入我们的生活，但它只有以一种既有价值、又可负担的形式存在，它才能发挥出它的最大潜力。但如果只关注精准医疗是否负担得起，而不考虑它的真正的价值，可能会导致与赋能医疗效率的工具本质大相径庭。

研究者应该停止把种族作为一个解释健康、疾病、药物反应等问题的生物学变量。让来自不同群体的人都能够获得平等参与研究（包括临床试验）的机会并从中受益，同时让科学家有更丰富的资源来增进对人类生物学的理解。

超过3000万人可以获得他们详细的基因组数据。基因组数据的大众化可以帮助家庭重聚（以及疾病诊疗），但亲属之间的遗传物质相关性意味着使用较小的数据库就可以识别大部分人群，包括不在数据库中的人群。DNA数据的高维度和连锁不平衡意味着通过数据混合以及部分遮盖的方式来保护个人数据的方法可能行不通。

全球原住民数据联盟（Global Indigenous Data Alliance）在关爱原则（集体利益、控制权、责任和道德）之外补充了公平原则（可查找、可访问、可交互、可复用），让数据具备更广阔的的应用场景，可以保护数据的安全同时更好地为数据的使用提供机会。

1. 及时的数据共享比以往任何时候都重要

学者Kathryn Maxson Jones以及Robert Cook-Deegan谈到，分享数据可以拯救无数生命。关于公共数据共享的“百慕大原则”是在HGP（Human Genome Project）组装首个人类的参考基因组时所留下的宝贵遗产。从20世纪90年代之后，这些原则成为了开放科学的试金石。

1996年2月，HGP的领导人们齐聚在百慕大来讨论如何来加快人类参考基因组组装的进程。尽管有一些顾虑，但委员会还是一致同意所有测序中心都需在24小时内在线上传他们的数据，以及在出版物发表之前分享数据，但是大部分机构在出版之前会限制数据的传播范围，有的甚至会在文章发表之后仍然对数据保密。百慕大原则在那时还是非常独特的，他们希望HGP资助的项目都可以在一天之内将数据开放给所有人。践行这一原则并不容易，但当时的HGP解决了所面临的挑战，这也促使了如今数据共享的行业共识。

John Sulston和Robert Waterston等在线虫生物学中倡导的数据共享，成了践行百慕大原则这一前卫想法的良好先例；同时，24小时内公开数据的想法也仍然是一种倡导而非强制要求，具备灵活性让小型机构在不同监管环境下参与。同时，也发生过强制现象，例如HGP最大赞助方曾收到监管方严厉的信件，要求其遵循百慕大原则，否则将会被剔除国际测序联盟。

百慕大原则后来扩展到不同的社群，并且推动了很多类似倡议的诞生。例如在当前的新冠病毒肺炎的危机中，及时的数据共享就成了一个非常重要的共识。SARS-CoV-2病毒的基因组序列被迅速地组装鉴定并且在2020年1月10日公布，揭开了后续疫苗研发和临床试验的序幕。COVID-19宿主遗传学倡议以全球共享流感数据倡议为基础，迅速而公开地将数据传播出去。

当然，数据的共享不是也不应该针对所有数据。例如，具有个人信息辨识度的医疗数据不应该像人类基因组一样进行公开处理。许多社群采用了出版前分享的策略，并取得了较好的成功。就像研究阿尔茨海默症的组织、蒙特利尔神经研究所和马里奥·内格里研究所的“开放科学”实验以及由结构基因组学联合会等。

图：人类基因组计划（来源/互联网）

2. 数据缺乏多样性将阻碍基因组科学的发展

Charles N. Rotimi, Shawneequa L. Callier和Amy R. Bentley在本部分讨论到，尽管我们在非洲拥有共同的祖先起源，并且任意两个人之间的遗传差异也非常小（低于0.1%），但是这一个人的基因组可以携带超过300万个差异位点，并且人类遗传变异的分布并不是随机的，在不同祖源和不同地理位置的群体之间，基因组（以及其他非遗传因素）存在较大差异。

但长久以来，基因组学的研究主要集中在欧洲血统的基因组上（编者注：这种情况在近10年有显著改变）。多样性和和具有代表性人群应同等重视已提升到基因组学领域的共识。

随着这种共识的不断发展，我们必须尽力理解和传播这些信息：

两个来自撒哈拉以南的非洲国家的人在遗传上的差异可能超过一个欧洲人和一个亚洲人之间的差异；
有的特有的遗传变异只能在非洲人群中发现，因为在约10万年前离开非洲去世界其他地方的族群只携带了当时的一小部分变异；
非洲的生态环境在人类基因组上留下了一些印记（如某些增加肾衰竭可能的变异），这些变异只在那些有来自非洲特定区域的祖先的人群中可以找到。

同样的，也有一部分具有医学意义或历史意义的突变在非洲人群中罕见或不存在。例如在亚洲、欧洲和美洲，由于与远古人类的近亲（例如尼安德特人）杂交而引入的一些基因组区域具备易感糖尿病或易感病毒的生物学功能。为了在全球推进基因组学在技术领域、临床、公共卫生领域的应用而又不会进一步导致全球健康状况不平等，我们需要在研究中纳入不同祖源和地理来源的个体。

为了应对这些困难，在基因组学研究中对于人群多样性的关注正在日益增加。许多项目，例如TOPMed、All of Us计划、国际常见病联盟（International Common Disease Alliance）、非洲人类遗传与健康项目（H3Africa）、百万退伍军人计划、GenomeAsia和COVID全球联盟等，正推动研究参与者的多样性，而在此过程中，研究者本身的多样性也同样值得关注。基因组学研究需要在研究分析和结论中更加重视不同的样本，并且将资源集中在能力培养、消除障碍以建立多样化的研究队伍。

图：HOLLY GRAMAZIO/FLICKR（来源/Science）

3. 算法生物学崭露头角
揭开基因组的谜底，需要快速而准确地在基因组的数据海洋中找到一段特定的序列（例如基因），这对研究者的专业知识有很高的要求，物理学家、数学家和计算机科学家们相继将性规划、散列和隐马尔可夫模型等方法引入生物学。

Hallam Stevens首先提到一个例子，在2000年，加州大学圣克鲁斯分校的研究生Jim Kent用几个星期近乎疯狂地发明了第一个基因组组装软件——GigAssembler，能够将全球不同实验室产出的数以百万计的DNA序列片段组装在一起，形成人类基因组的草图。几乎同一时间，Celera Genomics收购了Paracel，后者是一家主要设计情报收集软件的公司。Paracel拥有经过特殊设计的文本匹配的硬件和软件，可以用于在基因组中迅速搜索基因。

2005年以后，像摩尔定律一样飞速发展的高通量测序技术生产出了越来越多的数据，需要更快的算法来建立索引并搜索。生物学借鉴了工业界的大数据方法，同时也推动了计算机科学的前沿发展。

生物信息学和计算生物学围绕算法的交叉也为生物医学带来了新的形式和新的市场。以海量数据作为基础的生物学已经形成了一个新的“医疗-工业联合体”，提供更加个性化和更加精确的诊断和治疗。将个体基因型与数据库进行比较的算法催生了一系列关于健康管理和疾病风险预测的方法，像23andMe这样的直接面向消费者的基因组学公司可以利用算法来向公众赋能一个更健康、更快乐、更长久的生活方式。

这一现状对隐私、数据所有权和算法准确性等提出了重要的挑战，特别是如果我们期待基因组学避免成为监视的媒介，就需要尽快解决这些问题。很多科技公司通过使用机器学习的手段将日益增长的生物学数据和其他形式的个人数据相结合——我们去哪里，买什么，和谁交往，喜欢什么？而长期以来，我们对基因组学的期待一直受到隐私、歧视、社会分裂等因素的限制。算法生物学（Algorithmic biology）正在以更高的精度描绘并预测我们的身体，但是它也将生物医学更紧密地归拢到那些科技巨头身边，这些科技巨头期望将数据整合并从中获取利益。

4. 精准医疗的价值与可及性
Kathryn A. Phillips, Jeroen P. Jansen和Christopher F. Weyant在本部分谈到，关于精准医学的辩论通常集中在“我们是否负担得起”这一话题上。但是如果只关注是否负担得起，而不考虑它的真正的价值，可能会导致我们与赋能医疗效率的工具本质大相径庭。
负担能力是我们是否能够为这种医疗干预付得起钱，而价值可以通过每花费一块钱取得的健康成果来进行衡量。理想情况下，精准医疗可以节省金钱同时也改善医疗结果；但是，绝大多数医疗措施都能够以更高的成本带来更好的结果，精准医疗也不例外。通过更好地区分它的价值和负担能力，并且在两者之间寻求平衡，我们可以更快地推进实现既有价值、又可负担的精准医疗。
我们很难从科研文献了解精准医疗的价值和负担能力，这需要关于总成本、结果以及潜在成本的数据，但这些都很难获取，因为成本总是在这之前产生，但是有益的结果却需要较长的时间来体现。此外，由于后续的干预措施，精准医疗可能会带来很多实质性的后续影响，不仅对于患者，也对于和他遗传背景相似的其他家庭成员。新兴的检测可用于大规模人群的筛查，包括新生儿的基因组测序、肿瘤的液体活检以及阿尔茨海默症等疾病的预防性检测。这些干预措施可以带来巨大的好处，但是可能需要巨大的前期支出。另一方面，许多精准医疗干预措施会检测与多种疾病相关的多个基因，从而带来多方面的个人健康管理价值。
许多方法已经被用于综合判断精准医疗的价值和可负担性，但是“成本-效果分析”往往不考虑对预算的影响，从而可能会出现不完整甚至相互矛盾的结论。那些同时考虑可负担性和价值的评估开始更多地被决策者所接受。精准医疗已经日渐走入我们的生活，但它只有以一种既有价值，又可负担的形式存在，它才能发挥出它的最大潜力。

5. 终结种族和遗传研究间“纠缠”
（编者注：这部分为摘译）Dorothy E. Roberts 谈到，在人类基因组被首次发表之后，研究者证实了几十年来的一个推测：种族是一种社会结构而非是一种源于基因组的自然划分……现在，我们是时候去终结种族和遗传学的“纠缠”，来朝着人类团结和多样性的未来去努力。
首先，研究者应该停止把种族作为一个解释健康、疾病、药物反应等问题的生物学变量。将种族作为一个生物学变量掩盖了结构性种族主义（structural racism）在不同族群中制造健康不平等的事实，而表观遗传学提供了一种研究方法，让我们可以深入了解不平等的社会条件如何体现在我们的健康当中。但是研究人员必须谨慎，以防让有害的表观遗传过程看起来持续而不可避免。
其次，研究者应该停止使用白人/欧洲人的遗传学标准，而是研究更广泛的人类基因变异。生物医学研究多样化的目的不是寻找种族间固有的遗传差异，而应当是让来自不同群体的人都能够获得平等参与研究（包括临床试验）的机会并从中受益，同时让科学家有更丰富的资源来增进对人类生物学的理解。通过这种方式，遗传学可以更有助于进行个性化的诊断和治疗，而不是依赖于基于种族来作出错误决定。

6. 后新冠疫情时代的基因隐私
Dina Zielinski 和Yaniv Erlich在这部分谈到，2007年，只有Craig Venter和Jim Watson两个人完成了他们的全基因组测序，而时至今日，超过3000万人可以获得他们详细的基因组数据。这种基因组数据的大众化可以帮助家庭重聚、反对种族主义以及促进遗传知识的普及，但同时也让更大规模的监视成为可能。
亲属之间的遗传物质相关性意味着使用较小的数据库就可以识别大部分人群，包括不在数据库中的人群。DNA数据的高维度和连锁不平衡意味着通过数据混合以及部分遮盖的方式来保护个人数据的方法可能行不通。随着消费级基因组学以及允许自主上传数据的第三方网站的出现，收集和访问DNA数据正以一种越来越方便的形式出现。

我们可以设想，新冠病毒的大流行将会加速“基因监控”的进程，人们可能会在边境口岸被进行传染病监测，政府可以借大流行的机会来建立到访者的基因组数据库。这样的数据库可以识别出到访者母国人群的大部分人，而且随着第三方数据库规模的不断扩大，几乎每个人都可以被识别。
在技术方面，限制这种识别措施的方法包括制造一些痕迹来将谱系追踪引导到一个错误的结果，但是这些方法都缺少更加系统的和原则性的评估。除了技术对策之外，还需要一些政策上的指导意见，美国司法部制定的限制司法部门使用第三方数据库的临时规定是这方面的一大进步。公众讨论对于进一步的政策制定至关重要，这决定了我们是否能够将基因革命的力量用于真正造福公众。

7. 土著的新兴基因组伦理
Nanibaa’ A. Garrison和Stephanie Russo Carroll分析，过去二十年中基因组学的研究取得了巨大的进展，但是却仍缺乏代表性的土著民族。从土著民族收集的样本可用于进行疾病研究、祖源研究等，但这些研究却很少使参与者及其社群收益，甚至有的反而造成了伤害，例如刻板印象和文化信仰的损害。土著社群可能很少能够从精准医学、药物基因组学等领域受益，并且健康服务上的差距很难得到正视。因此，很多土著民族在缺乏利益保障的情况下对参与基因组学研究踌躇不决。当地学者正在通过制定指南和标准的方式来解决人们的关切并为更加有益的研究创造基础。
文化一致的研究可以增进土著民族对研究的参与程度。原住民基因组学夏令营（SING）提升了社群成员对于本社群的研究兴趣和能力，并且促使SING委员会指定了一个伦理研究参与框架。土著基因组研究伦理中心支持当地人主导的生物样本库和精准医学研究，在加拿大、新西兰等地也都有类似的组织在当地发挥作用。
全球原住民数据联盟（Global Indigenous Data Alliance）在关爱原则（集体利益、控制权、责任和道德）之外补充了公平原则（可查找、可访问、可交互、可复用），让数据具备更广阔的的应用场景，可以保护数据的安全同时更好地为数据的使用提供机会。注重权利和利益，同时增强参与度和能力，可以更好地减少偏见，并且为所有人开展更相关的有益研究。

8. 多元世界中的多基因评分的风险
（本部分为摘译）Pilar N. Ossorio谈到，多基因风险评分（PRSs）是近年快速兴起的技术，它可以将人基因组中多个多态性位点的微小影响汇聚成一个单一的评分。PRS可以在基因组关联数据的基础上对任何表型的数据进行计算，通常是根据等位基因的影响大小进行加权求和。在医学和公共卫生领域，PRS可以用于治疗方法选择、进行额外的风险筛查或者行为管理。迄今为止，PRS已经在血压、肥胖、糖尿病、抑郁症、精神分裂和冠心病等多种复杂表型中取得功效。

PRS也强调了基因组学中种族和祖源的重要相关性。最近一项分析表明，在之前的26项研究当中，以非洲和南亚血统为主的人群PRS预测能力显著要差于欧洲血统的人群，证实了一些早期的研究并作出了扩展。一些其他的群体缺乏数据来进行准确评估，研究人员将这一结果归因于非欧洲群体在数据集中的代表性不足。

对于PRS的不同预测能力，研究者专门为非洲血统的人群开发了一些PRS算法，并且科学家们还在研究是否每个不同的族群都需要基于特定祖先的PRS。但这些研究结果很容易引导人们对种族的关注，而不是考虑社会不平等对于健康的影响，让人们错误地认为种族之间的特征差异主要源于基因。科学中的不公正可能是因为缺少某些群体，同时也可能是错误地包括了某些群体，包括不同国家和地区的群体样本研究等。

（备注：以上中文信息翻译自英文材料，仅供个人学术探讨，不代表任何机构的观点，详细详细请以原文为主，见参考资料）

本期作者月（欢迎热爱基因产业和善文字表达的同仁投稿含政策/技术/产品/产业等最新资讯和解读）

韩斐然

浙江大学博士，联川生物

浙江大学博士，联川生物单细胞VDJ免疫组测序及DNA重测序组负责人，统筹日常实验与生信工作。擅长领域为肿瘤异质性与克隆演化，以及新抗原药物靶点挖掘，并自主开发欧氏距离生信算法用于肿瘤异质性分析。

参考资料：

1. Kathryn Maxson Jones et al., Complicated legacies: The human genome at 20, Science, 2021 Vol. 371, Issue 6529, pp. 564-569

2. 百慕大原则简介：https://www.genome.gov/25520385/online-education-kit-1997-bermuda-meeting-affirms-principle-of-data-release

3. 人类基因组计划：https://web.ornl.gov/sci/techresources/Human_Genome/project/index.shtml

推荐阅读月

新华社：最新报告显示，我国基因行业正处在高速成长期

《2021基因行业蓝皮书》（预印版）正式公开发布

2020基因行业盘点及2021展望（上）

【声明】为传播科学信息，推动基因及数字生命健康产学研连接，我们秉持中立、专业、赋能的理念收集、分析或发布信息。但由于时效性及行业特殊性，所刊登内容仅供研究参考，不作为决策依据；本文相关信息不代表基因慧机构的观点；“基因慧”刊登的原创内容的知识产权为“基因慧”商标拥有者及相关权利人所有；欢迎转载，转载请申请并注明来源。欢迎个人及机构投稿及合作。

关于基因慧

基因慧是数字生命健康领域创新服务平台。团队深耕行业十余年，从行研咨询、媒体资讯、产业平台等角度提供优质内容。作为国发改产业研究合作单位，基因慧联合多家头部机构连续四年发布公开的行研报告，为产业园、投资机构、头部企业及政府提供咨询规划服务，参与组织发布行业共识和标准，致力于建设数字生命健康产业数字化平台，服务生命科技创新创业。

☆ 国发改《战略性新兴产业发展展望》编委

☆ 参与组织发布行业共识、团体标准

☆ 发布产业大数据平台优脉通YourMap

☆ 中国遗传学会生物产业促进委员会委员

☆ 发布数十份基因及数字生命健康领域行研报告

☆ 组织基因检测联盟（筹）首届、第二届会议

☆ 主办数字健康私董会、大湾区生命健康创新论坛

☆ 受邀为华西、Illumina、华大、上海交大等报告

☆ 中国抗癌协会肿瘤标志专业委员会战略合作单位

☆ 广东省精准医学应用学会政策研究应用分会常务委员