慧议笔记 | 阿里云云栖大会基因计算专场干货分享

关键词:三代测序、Data mining、基因数据库、

生物大数据、肿瘤基因组、FPGA

建议用时5分钟

 

一、三代测序在精准医疗领域的机遇与挑战

汪德鹏  北京希望组CEO

全球80-90%都是二代测序,现在华大已经实现600美金做一个全基因组的测序,二代测序读长短,通量高。

目前已知的三代测序平台有Sequel,Genia,GridIon/MinION,GenoCare,SeqLL,瀚海基因近期也发表了第三代测序的单分子测序仪。

SmidgION实现了可以直接手机连接测序,测序很短,MinION由于便捷性可以在非洲直接进行埃博拉病毒的测序。

ONT CEO Gordon Sanghera认为:

  • 目前三代最普遍的还是PacBio Sequel,目前中国已有全球1/4的装机量。
  • 错误率15%,大概有14%的错误是单次错误率,这使得NGS占据主要市场而三代无人问津。
  • 80%的动农业的测序数据是中国产生的。
  • 三代测序可以实现单体型的测序
  • 单基因遗传病由于超长的重复性,三代测序相比二代测序更容易读取。
  • 微生物组学可以通过三代测序完成宏基因组的测序

最重要的挑战,三代测序被大众认为错误率太高无法被利用

矫正中的效率低下,数据的产出非常巨大,Storage 13T/day  Data 1Tb/day,存储成本巨大。

 

二、Data mining in functional genomics using public data

 王爱华 北京百迈客生物科技有限公司 技术总监

这份报告侧重两个方面:

  • 目前基因界科研服务的需求和现状,
  • 利用公共基因数据库辅助功能基因的数据挖掘。

目前基因界科研学者对数据管理不熟悉,科研人员需要大量的探索和个性化,即时可视化分析。大量测序数据包括公共数据,在测序后就处于沉睡状态,没有一个平台让这些数据在具有相关研究中被参考和使用,而解决这些科研家的需求都需要大数据和云平台的结合,以及BT和IT的整合来促进基因的科研服务的发展。最后王爱华技术总监介绍了针对科研服务推出的百迈客云科技产品, 提出了“基因科技服务2.0”的服务模式。即通过百迈客云提交测序结果和分析报告,让客户自己使用“分析流程+交互式个性化”的分析方式进行个性化研究,同时建立了与国际知名数据库高度同步的数据库系统,提高科研用户利用公共数据平台进行基因功能数据挖掘的能力。

三、构建百万中国人基因数据库

金鑫  华大股份研发中心副总监

金鑫博士在会上作了《构建百万中国人基因数据库》的专题报告,报告围绕构建中国人自己的基因数据库的“中国力量“ 展开,并且会上宣布一项2018年华大和阿里云将合作,分析十万中国人全基因组数据,此次计划大约将产生10p级的数据量,而目前国内总共拥有自己完整基因组的样本量不超过1万个,这将是构建中国人自己的遗传数据库来说是一件里程碑的事件。报告从三方面针对中国人自己的遗传数据挖掘取得的重要进展。

  • 华大基于中国的141,431 例NIFTY 样本数据挖掘的得出的一些重要结论。
  • 中国人遗传大数据挖掘,服务提供遗传性 肿瘤防控和区域独特性遗传病的防控作出贡献。
  • 从基因角度决定中国南北方和以及民族;中国南北方和民族基因遗传距离报告,对中国人遗传有特征的药物开发的指导意义。

 

四、云端生物大数据解决方案

 田仕林 诺禾致源CTO

今年8月份正式成立生物云事业部,同阿里云正式建立合作。

NGS崛起后的大数据挑战:

从国际人类基因组计划的30亿,到现在NocaSeq的1000美金,测序成本不断降低,基因数据的不断增加。

随着NGS市场的扩张,测序数据产量的增加,数据分析的需求正在不断的增加。随着IT云计算概念的成熟,通过弹性运算,降低用户成本。8月前诺禾致源一直在用自己的私有云,而在和阿里合作后,发现公有云在弹性计算上具有明显优势,但也存在数据传输的不稳定性。基因测序定制配置和但节点基于时间安能力非常重要。

上游供应商,诺禾致源有阿里云这样的云供应商,也有Intel、Dell这样的私有云,硬件供应商。并且由于诺禾的特殊性,还有像genedeck这样的软件供应商。
诺禾云提供共有的软件为客户提供服务,丰富的API端口,为上层和底层之间提供无缝连接,轻松扩展,并按需分配。

针对人基因组,和港大开发的诺禾云,同Inel合作在多个方面提高了50%-2倍的性能提升。

 

五、肿瘤基因组的全面检测和精准分析

 陈实富 海普洛斯联合创始人&CTO

陈博士针对肿瘤基因组的全面检测和精准分析的专题报告:

  • 由于肿瘤基因检测领域现状:面对检测对象越来越小,测序的目标越来越广,临床转化越来越快,导致肿瘤基因检测领域的数据进入了大数据的时代。
  • 针对肿瘤基因检测大数据如何计算,分析和存储,提出了一些解决方案包括:基于容器化技术将所有计算资源池化,和并行化拆分,更重要的是利用云进行弹性计算的优点,连接公有云,将本地云和公有云架构映射,同时海普洛斯还开发了许多个性化的开源软件来加速NGS辅助肿瘤检测。

 

六、生命科学中的FPGA加速

吴永俊  Falcon Computing用户体验总监

生命科学中海量计算的挑战,基因测序成本的下降100GP。

有效解决方案:鲫鱼FPGA加速的异构计算。

异构计算:根据特定应用来选择最优的计算平台-CPU,FPGA,GPU。

生命科学运用FPGA加速有多年的学术研究的积累。

基因分析FPGA加速的挑战:

  • 开发环境需要很强的硬件知识。
  • 数据传输和计算最优重叠。
  • CPU和FPGA相互协作和平衡。
  • 计算集群的资源管理和分配。

峰科计算简介:

早期初创公司,致力于鲫鱼FPGA加速的解决方案,总部位于硅谷,以及洛杉矶和北京分公司。

公司愿景:为企业级和云端计算平台提供一体化的加速解决和开发方案,能够让计算密集的应用打刀高计算性能以及高效率的能耗。

峰科基因分析解决方案:

  • 采用GATK标准分析流程。
  • 最大限度FPGA加速来提高数据分析通量。
  • 缩短基因分析时间周期,实现高度可扩缩方案。
  • 高度可扩展性,系统架构支持混合和易购云端计算平台。
  • 优秀可移植性,能迅速支持新一代算法标准和硬件平台。
  • 精准计算精度,于GATK标准流程完全吻合。
  • 高复读计算成本节省。

 

阿里云基因计算解决方案2.0

基因计算面临的挑战:

  • 效率,测序应用从科研走向临床,计算模式从离线走向在线。
  • 规模,大规模样本分析成为常态,需要海量的计算能力。
  • 标准,计算环境越来越复杂,需要一次编写到处运行。

阿里云同合作伙伴一同计算过去一年主要新增功能:

1)传输

  • 闪电立方:PB级数据的;离线导入能力

2)存储

  • Oss归档:价格从0.06元/GB/月→0.033元/GB/月
  • Lifecycle:自动冷热转换节省成本,归档提取实践
  • 规模红利释放:百元全基因组分析 BGI Online/GeneDock

注:以上现场速记未经嘉宾确认,不代表任何公司的立场,仅供学术参考。原创内容、转载请注明出处。

 

更多 | 行研 · 大咖 · 媒体

☆ 行业研究

36位基因行业CEO总结   |  9个故事科普基因检测

基因产业格局浅析  微生物组产业简报

肿瘤调研报告  | 科学认识罕见病

24家基因相关上市公司  |  “基因+X”跨界产业

☆ 专家智库

政协委员-丁洁  |   复旦儿科医院-黄国英院长

哈佛医学院-沈亦平  | 华大基因-尹烨

Illumina 总经理赵瑞  |   红杉中国-杨云霞

欢迎品宣/会议/行研/FA合作:
电话:400-088-7466
地址:北京 · 深圳
官网:www.geneclub.net.cn
邮箱:info@genonet.cn

版权所有,未经允许不得转载。基因慧:领先的数字健康创业创业信息服务 » 慧议笔记 | 阿里云云栖大会基因计算专场干货分享

相关推荐

抢沙发