原创 基因慧 大咖论健2018年07月12日 08:00

关键词:二代测序 DTC基因检测
DNA预测人脸三维模型
阅读时间:约6分钟
文/基因慧
在基因测序等生物技术(BT)和人工智能等信息技术(IT)加速数字生命健康发展的当下,基因慧主办《大咖论健》,汇聚数字生命健康领域先锋参与前瞻性探讨。第77期嘉宾为口袋基因CEO唐鲲教授,德国马普所进化人类学所博士后,29岁成为中科院博士生导师,利用DNA测序预测人脸三维模型,被公安部物证鉴定中心聘为客座教授,如今创立口袋基因深耕消费级基因检测。

1.29岁的中科院博导
【基因慧】唐教授您好!您早年从新加坡国立大学完成博士学位,26岁成为德国马普所进化人类学所博士后,29岁受聘为中科院上海生科院计算生物所的博士生导师,现在创业,能否和读者谈谈您的经历?
【唐鲲教授】我是一个很理想主义的人,感兴趣的并且有意义的事情愿意全身心投入进去。2001年我来到新加坡国立大学求学,正值人类基因组计划的草图完成,我从实验方向转向基因组的数据分析。那时候少数其他领域的人转到基因组学领域,现在他们中很多人反倒成了这个领域的骨干。当时我在药物基因组学研究中应该是首次引入了单倍型分析和自然选择分析,在这个领域发表了一些引用率比较高的文章,三年半就博士毕业,26岁到了德国马普所进化人类学所做博士后。
德国马普所进化人类学所是当时进化基因组学研究的世界中心之一。我的导师是Mark Stoneking教授,他通过引入Mitochondrial Eve“线粒体夏娃”的概念,为著名的1987《非洲起源说》理论提供了关键的分子遗传学证据。当时的计算基因组学属于前沿领域,没有现成的工具和教学资料。创建数学模型、编写分析流程、数据清洗等工作几乎都是从零开始。在“人类基因组自然选择信号”的研究方向上,我用“延展单倍型同源性”(extendedhaplotype homozygosity)的方法在多个全球人类群体中找到数百个自然选择信号,受到很多关注,可以说是一个创新。
2008年,我回国入职中科院,得益于很好的机缘。2006年,德国马普所与中国科学院联合创办了上海生科院计算生物学所,这是国内唯一的以计算生物学为主要研究领域的国际合作研究所。受金力院士的推荐,我有幸29岁就开始独立管理实验室和带博士生,到现在已经是10年了。我的学生都去了知名研究机构做博士后,包括耶鲁大学、牛津大学、西奈山医学院等。这让我非常自豪,也很惋惜,因为国内培养的计算基因组学的人才大部分流失到欧美去了,造成国内这个领域人才稀缺。近年来,这些情况有所好转,随着未来国内的教育、研究和产业体制更加有效结合,还会吸引更多人才归国科研和创业。
我回国后,第一个标志性工作,是尝试用DNA序列预测人脸的三维模型。理论上来说,人的长相70%以上是遗传的,应该可以直接通过DNA很好地预测长相,而且人脸的遗传模型研究可以帮助我们了解如何研究其他复杂性状,比如疾病。换句话说,如果人脸都可以用DNA预测了,所有可遗传的特征就都是可预测的。但实际上,由于全基因组关联分析的复杂性,再加上3D人脸本身的高度复杂性,很多人认为这个事情是不可能的。针对这个争论,《Nature News》2014年专门访问了包括我在内的三位领域专家(“Mugshots built from DNA data”)。
我和学生们花了十年的时间终于证明人脸是可以部分预测的。现在我与公安部物证鉴定中心的学者们合作,正在逐步深入这项研究,希望把它变成法医的超级探案工具。我也因此受聘成为中国公安部物证鉴定中心的客座教授。不得不说,这十年做得很辛苦,在国内能理解和支持这项工作的人很少,这个课题申请了8年的国家基金,至今还未获得资助,希望国内媒体和同行有更多的关注。
我们也做了很多其它有意思、看起来“非主流”的研究。比如,用国际千人基因组数据研究人类50万年以来的进化历程,曾被《Nature News》专访(“Alzheimer’s origins tied to rise of human intelligence”)。我和韩劲东研究员合作的用3D人脸图像预测人的年龄这项研究工作曾被《Science》专访(“Is your face the same age as you are?”)。
2 .所有人都将拥有自己的基因数据
【基因慧】您曾在德国马普所进化人类学所从事了多年的计算基因组学研究,那肯定是一段非常宝贵的时光,现在回想看看,它对于您现在有着哪些重大的影响,特别是对于创立口袋基因的初心驱动而言?
【唐鲲教授】德国马普所是一个充满理想主义的研究平台,科学家们不用申请经费,政府每年拨发充足的经费;对应的,马普所的科学家“必须挑选世界上最具挑战性的研究课题”。在德国,博士和教授们像摇滚明星一样受到关注,顶级教授和刚入学的年轻学生们席地而坐,一边喝啤酒一边共同朗读达尔文的《物种起源》。我在那里形成了我的价值观,就是对于有价值和有挑战性的事情全身心投入,平庸舒适就是浪费生命。
埋下创立“口袋基因”的种子的是一部电影。在马普所,年轻的研究者们有一个周末“看片会”,观看和评论一些很有意思的电影。有一部很喜欢的电影 《Gattaca》(国内翻译《尖峰时刻》)讲到,未来遗传学可以在孩子刚出生就通过基因检测精确了解他未来的疾病风险;大部分孩子都是通过基因编辑出生的“完美婴儿”;即时基因检测装置像自动售货机一样随处可见;大家通过一滴指尖血来上班打卡;更特别的是,警察拿着一个手持检测仪,放了一根头发进去,屏幕上就出现了嫌疑人的真实长相。那时我意识到,基因检测会渗入日常生活的方方面面,我必须参与到把这种梦想变为现实的事业。这个梦想也驱使我一回国就马上着手研究DNA预测人脸的研究。当然还有很多事件的影响,Kári Stefánsson教授建立了世界上第一个基因组检测公司deCODE,他在马普所的交流演讲对我触动很大。当时马普所也是世界最早一批拿到二代测序仪的研究机构,每天产出大量的测序数据。这时候我就明白,当测序价格降低到一个水平,所有人都必须有自己的基因组数据。十几年后,我们的“口袋基因”实现了个人基因组测序低于千元的价格。
【基因慧】作为国内少有的专职研究计算基因组学的科学家,是什么促使您放弃中科院稳定的科研及教职工作转而选择创业呢?
【唐鲲教授】我一直希望我付出的大量脑力劳动能够影响到更多人,能够参与改变这个世界,这需要科研的成果和产业的平台。优秀的企业通过可持续服务的产业模式,可以去深刻地影响和改变世界的。伟大的公司像华为、特斯拉和苹果,工程师可以通过优秀的产品来实践理想、服务大众。
当然还有一点私心,我作为数据科学家,其实这十年来能接触到的数据很少,比如DNA预测人脸的项目,不超过2000人。而我参与的企业,两年已经做了15万份的检测。另外,我认为当一个学科已经发生深刻的产业化,最重要的研究和发现是发生在企业里而不是学院里。比如华为等企业可以投入巨大的人力和资源去提升技术与模式创新。
3 .口袋基因:消费级基因检测产品
【基因慧】口袋基因在五月底向市场推出了999元的个人基因组检测产品,它和市面上其他消费级基因检测产品差异化在哪里呢?可否谈谈您的产品理念?
【唐鲲教授】口袋基因产品是消费级基因检测市场上独一无二的基于二代测序的全基因组检测,其他同类都为基因芯片类;而且我们是基于国际千人基因组计划的全基因组测序流程,进行了深度自主研发的技术。
它有几个重要的特点:
一是对遗传多样性位点的覆盖度很高,中国汉族群体频率高于1%的位点其覆盖度高于99%。总共达到1700多万位点的覆盖度,远远高于芯片产品。
二是位点平均准确率>99%,未来随着参考基因组数据库的增加,准确性会越来越高。
三是这种检测数据是无缝兼容传统的深度测序全基因组的。随着未来测序成本下降,或者测序平台的更新,我们可以逐步升级至医学级别的全基因组测序。
此外,基因检测报告内容主要基于公开发表的文献,进行了大量的数据整合和数据清洗的工作。项目种类以及每个项目所使用的位点都有很高的完整度。基于全基因数据,总共涵盖近千项已有研究的项目。很多项目使用了几百上千个位点去建立预测模型。GWAS位点增加意味着模型非常复杂,并且要根据中国人群与欧美人群的不同进行一系列的模型标准化。而且,部分项目已经使用机器学习和神经网络进行模型更新和优化。比如我们新的身高模型使用了10万个SNP基因位点,针对中国汉族数据进行了模型优化,对大部分人的身高可以预测到正负4.5cm的范围内。
基于团队近二十年的基因大数据研究经验,口袋基因基于全基因组数据进行复杂性状的预测模型建模和优化。基因检测能否满足客户的真实需求,主要取决于能否真实地预测风险和生理状况。另外从DNA提取,到建库、基因数据计算、解读、APP客户程序以及AI模型优化,都是口袋基因自主研发独立实现,这对于未来成本控制和技术迭代都非常重要。
4 .消费级基因检测市场格局
【基因慧】随着消费级基因检测市场竞争格局的加剧,最近某公司个人基因组检测产品价格降到300以下,您觉得对国内外市场格局会有什么影响?
【唐鲲教授】所有正在进行的商业化探索都是有积极意义的。基因检测市场是广阔的,特别是DTC(Direct to consumer,即消费级基因检测)检测,客户量足够容得下多个公司。我认为现在根本谈不上相互竞争,市场基本处于蓝海,而且需要差异化产品来满足不同的用户群体。总体上,DTC检测正在担负起最困难的市场教育的工作,而且非常有效。当DTC普及了,客户就有需求做更细分的医学类检测,从而可以带动整个行业。美国做过基因检测的人口比例从2012年的0.1%到去年的4%左右,几乎所有的新增客户都是DTC的。所以我认为消费级基因检测对行业有着非常积极的影响。
【基因慧】您认为消费级基因检测与区块链以及保险会有哪些可以落地的结合?
【唐鲲教授】消费级基因检测与区块链和保险是天然的结合,这个很容易理解。从区块链来说,基因组数据的再利用可以产生巨大的放大效应。现在大部分的复杂性状研究,如果其样本量达到百万级别,其模型的预测效力都可以接近峰值(参考身高的遗传结构研究)。但是现在最主要的障碍是数据不能充分流转。而区块链可以解决数据流转的最核心的信用和加密的问题。
保险本质上来说是一种建立在风险精算上的产业,基因检测就是通过大数据评估风险的。未来随着基因检测的深入绑定,保险公司的形态可能会变成健康管理公司。对那些检出重大疾病风险的客户,保险公司基于基因大数据可以结合精准的方案来对客户的健康进行管理,从而减少大病发生率。
【基因慧】您与公安部物证鉴定中心合作的人脸识别技术,未来在消费级基因检测领域会有哪些落地的可能?
【唐鲲教授】DNA预测人脸的研究已经比较深入了,现在主要瓶颈是样本量太小,如果样本量达到几万人,可以支持法医的直接应用。可以畅想未来,在犯罪现场发现一滴血,DNA测序后就可以把嫌疑人的3D人脸画出来,甚至打印成3D头部模型。在消费级领域还可以有更多想象空间,原先,很多父母在怀孕期间充满好奇地用B超观察,未来孩子刚生下来,甚至还没出生(通过cfDNA测序)我们或许就可以知道孩子未来长什么样子、长多高等。人脸基因研究的最主要应用其实还是促进复杂性状预测模型的研究,未来可以应用到更多方面,有了预测就会有很多的解决方案进行提前的健康管理和干预。
5 .专注消费级基因检测,注入黑科技
【基因慧】根据基因慧推出的2018年基因行业投创报告(详情)显示,2017年国内59家基因企业融资总额超百亿,其中消费级基因检测领域已成为热门赛道,仅次于智能制造和肿瘤精准医疗,在基因检测行业全产业链生态整合以及可能即将到来的并购窗口期,您是否也会感觉到焦虑?
【唐鲲教授】前两年我会焦虑,现在大家逐渐意识到消费级基因检测的重要性,我就没那么焦虑了,因为投资人也更容易关注到我们。另外,基因行业始终是一个以技术为核心的产业,现在竞争力正在向数据分析和解读转移,该领域国内高级人才稀缺,而这正是我们的核心优势。长远来看基因产业就像电子芯片产业一样,有技术核心的团队能走得更远。
【基因慧】未来几年口袋基因的发展重点是什么?如何平衡过深的赛道和市场的拓展?
【唐鲲教授】未来相当长时间,口袋基因会专注于消费级基因检测,但会在消费级基因检测领域拓宽应用领域。我们会不断给大家带来黑科技,让大家感受到个人基因组数据是多么强大,可以深入到每个人的日常生活中。在不远的将来,如果没有个人基因组数据,生活会变得很不方便,就像现在离不开支付宝和微信一样。这是一个非常宏伟的布局,我们会在未来逐步向大家揭晓,敬请期待。
以上信息仅代表采访嘉宾观点
欢迎产学研医资政代表参与《大咖论健》
info@genonet.cn,400-088-7466
记者:Clare/ 编者:Candice
校对:Eric/ 审核:Mark
【声明】因7月11日发布的文中内容有更新,沟通后再次发布。在此致歉。
【招募】基因慧现面向广大读者招募有偿新媒体编辑、兼职专栏作者、行业分析师,请感兴趣的读者将简历发送至:info@genonet.cn。
