一是“两大基础”:数字基础设施和数据资源体系,其本质是“算力”——广义的算力指对数字化信息处理能力,包括网络、存储、计算、数据挖掘及合规共享等,与之对应的分别是规划中提及的基础建设目标:IPv6/北斗、数据中心、智能计算中心、国家数据资源库等。
二是数字经济,即数字技术和实体经济的融合,即数字技术的赋能价值,特别是与农业、工业、金融、教育、医疗、交通、能源等经济的融合。
除了早期的基础设施建设,从长远的应用及市场价值上,头号创新高地是数字生命健康,即“BT+IT+DT”。具体地,以高通量测序、单细胞、空间组学、蛋白组学为代表的前沿生命组学技术和信息技术、数字技术结合,与医疗、健康、农业、生态等场景深度融合,构建数字生命健康,通过数据资源库和数字产业集群,赋能经济和民生的高质量发展。
其中,以基因组为代表的生命多组学,本质是将生命健康数字化,构建EB级别的生命组学大数据,代表机构是因美纳、华大、牛津纳米孔等,通过生命组学大数据绘制个体、家庭及群体的生命数字化图谱;同时这离不开与数字技术紧密融合及产业协作,充分挖掘数据信息并提升算力,代表机构是谷歌、亚马逊云、华为、阿里云等。
生命组学技术与数字技术的融合是“双向奔赴”的,共同构建数字生命健康的数据资源库和算力等基础设施:
- 一方面,除了电力、煤矿、航空航天、深海等场景,医疗健康领域是数字技术平台的最具规模和前景的应用场景,且与生命组学大数据有极强耦合性和数据整合空间,将实现数字技术的市场价值,并训练平台的扩展性和实用性。
- 另一方面,生命组学需要数字技术的算力和数据挖掘能力,来进行大规模数据的存储,缩短数据计算和分析的周期,进一步挖掘数据的信息和价值,建设数据平台、信息管理系统和大数据中心。
数字生命健康的理念、技术及产业体系均在初级阶段,但正逐步深入赋能医学诊疗、健康预防、农业育种、生态多样性保护等场景。
本文以医疗和健康领域为例,讨论数字生命健康技术对基础研究和转化研究的赋能甚至革新作用。
目前我国的疾病分类主要沿用ICD体系,即源自100多年前世界卫生组织(WHO)编制的《国际疾病分类》(简称ICD)。ICD依据病因、部位、病理、临床表现对疾病进行分类,实际操作中按解剖部位分类较为常见,例如结直肠癌、鼻窦炎、干眼症等。2018年,国家卫生健康委员会引进最新版ICD-11的中文版。
以基因组为代表的生命多组学正在逐渐补充和更新传统分类标准,以数字化、个体化、系统化的方式引发新的疾病分类范式思考。并在科学、政策及产业等方面积累日趋丰富和规范的体系。
- 1990~2003 年间,与曼哈顿原子弹计划、阿波罗登月计划并称为“20世纪三十科学计划”的国际人类基因组计划(HGP)获得了世界上第一套完整的人类基因组序列,建立了后续基因组研究的参考序列。
- 2002~2010 年间,国际人类基因组单体型图计划(HapMap)确定和编目了人类基因组单核苷酸多态性(SNP)位点,提供基因突变的参考数据集。
- 2008~2012 年间,千人基因组计划(1000 Genomes Project)得出了迄今最详尽的人类基因组基因多态性图谱,进一步补充了基因突变的精细参考数据集
- 2006~2015 年间,癌症基因组图集计划(TCGA)发现了近1000 万个癌症相关基因突变,初始化癌症相关基因参考数据集。
基因组计划给临床基础研究和应用研究带来了什么价值呢?
基因等生命组学大数据的研究,使得疾病治疗从解剖位置或通路可聚焦到分子病理靶点,实现精准医疗——以“狙击枪”的精准治疗(靶向药)来代替“杀敌一千,自损八百”的“机关枪”治疗方式(放疗和化疗)。其优势是治疗更高效、副作用更小、预后和复发风险易监测;但也存在劣势,即靶点多且关联,使得目前的研发成本和治疗成本高。
基于卫生经济学的考量和生命组学大数据进一步积累,最新的靶向药研发路径诞生了——泛癌种靶向药,即针对一个靶点治疗多种疾病(前文提到的“异病同治”),从总体上减少研发及治疗成本。
美国国立卫生研究院(NIH)在2006年牵头启动癌症基因组计划(The Cancer Genome Atlas,TCGA)。这个计划涉及到1万余名患者的33种不同类型肿瘤样本,包括基因组测序和其他生物分子数据;通过整合组学数据,将基于病理和解剖位置等传统分类方法划分的33种肿瘤,重新形成28种整合分子群(Integrated Clusters, iClusters),提出新的肿瘤分类——泛癌种(PanCancer)。
泛癌种的提出,从某种程度上革新了生物药研发的范式,并将在不久的将来大大降低研发及治疗成本。
2018年,FDA加速批准 Bayer 和Loxo Oncology 共同开发的泛癌种靶向药拉罗替尼(larotrectinib)(商品名:维泰凯)上市,用于治疗携带 NTRK 基因融合的局部晚期或转移性实体瘤的成人和儿童患者;2019年,第二款靶向NTRK的泛癌种药恩曲替尼(Entrectinib)被FDA批准上市;2022年,NMPA批准拉罗替尼和恩曲替尼在中国相继上市,为广大癌症患者和医生带来新的希望。据基因慧不完全统计,目前FDA和或NMPA批准了8款泛癌种靶向药/方案,其中包括四款PD-1/PD-L1免疫治疗药物,结合了靶点和免疫机制,本文不作展开。
泛癌种靶向药 | 靶点 | 批准 |
埃罗替尼(Erlotinib) | NTRK基因融合 | FDA/NMPA |
拉罗替尼(Larotrectinib) | NTRK基因融合 | FDA/NMPA |
塞尔帕替尼 (Selpercatinib) | RET融合 | FDA/NMPA |
达拉非尼+曲美替尼 | BRAF V600E 突变 | FDA/NMPA |
多斯塔利单抗(Jemperli) | dMMR | FDA |
派姆单抗(Keytruda) | MSI-H或dMMR TMB-H | FDA/NMPA |
恩沃利单抗(Envafolimab) | MSI-H/dMMR | FDA/NMPA |
斯鲁利单抗(Serplulimab) | MSI-H | NMPA |
泛癌种靶向药或其他以生物分子为靶点的靶向药,在治疗前后均伴随分子检测,从而筛选出合适的用药人群进行个体化治疗,并评估预后反应及复发风险,这便是伴随诊断的价值。
早在1998年,第一个伴随诊断Her2/neu检测就与乳腺癌治疗药物曲妥珠单抗(商品名:赫赛丁)同时获批。面向生物靶向药研发的靶点发现及伴随诊断是当前肿瘤精准医疗公司的重点。特别是受美国Exact Sciences公司打造出年销量10亿美金的重磅早筛产品Cologuard(针对结直肠癌筛查),实现10年40倍股价的奇迹,全国覆盖且纳入美国联邦医疗保险。这直接带来国内相关企业及资本的投入。
2018-2020年的药企市场带来非小细胞肺癌伴随诊断产品的扎堆,集中批准了十余款同类产品;2020年,随着早筛的热度,和瑞基因(莱思宁)和泛生子的(HCCscreen )在肝癌早筛做了早期探索和市场教育,前者在两年后的2022年推出多癌种早筛产品(全思宁)。
2021年,NMPA批准国内首个早筛探索性产品上市——来自诺辉健康的常卫清产品(检测KRAS基因突变及BMP3/NDRG4基因甲基化),作为至今公司市场及财报保障的重磅产品。类似产品包括锐翌生物的常易舒产品(检测SFRP2和SDC2基因甲基化)、康立明生物的长安心(检测SDC2基因甲基化)、艾米森的艾长康等。
而头部基因机构华大基因早在2019年分拆初肿瘤早筛品牌——华大数极,以华甘宁、华常康、华消全三大产品分别对应肝癌、结直肠癌和泛癌种。
面对高通量测序成本的优化及大数据带来的长远价值,万人大规模泛癌种前瞻性队列研究也如火如荼,包括燃石医学、和瑞基因、鹍远基因、世和基因等几乎所有头部肿瘤精准医疗机构开展数以亿元级的队列研究项目:
启动时间 | 发起机构 | 合作机构 | 说明 |
2020年 | 燃石医学 | 复旦大学附属中山医院 | PREDICT:约1.4 万人,约2亿元 |
2021年 | 鹍远基因 | 复旦大学泰州健康科学研究院 | 福声计划:6万人 |
2022年 | 诺辉健康 | 北大医学部 | PANDA:6年,5万人,超2亿 |
2022年 | 世和基因 | 南京市江北新区公共卫生服务中心 | 金陵队列:约10万例 |
国际大科学计划的开展,加速基础研究同时大大提供科技及产业发展。
特别是,2006-2015十年间高通量测序超摩尔定律发展使得个体基因数据更加便捷、相对低成本地获得,并逐步深入地作为临床诊疗依据甚至手段。NIPT(无创产前基因检测)在2012年前后进入全球临床市场应用,我国在2015年开始开展肿瘤高通量基因测序临床应用试点。
HGP大科学计划成果的公布成为产业发展的催化剂。2005年,454 Life Sciences 推出了第一款二代测序仪(2007年以1.55亿美元被Roche收购);2007年,收购Solexa NGS技术(6亿美元)的Illumina、收购APG公司(1.2亿美元)的ABI陆续发布更高通量的测序仪,并在次年将全基因组测序成本降低至10万美元以下(2011年需要38亿美元);2023年,10年前收购CG的华大智造(MGI)将基因组测序成本降低至100美元,并对外出口扩展至全球市场服务。
大科学、大产业的发展离不开顶层设计及监管政策支持和引导。
- 2011年,美国科学院、工程院、国立卫生研究院(NIH)及科学委员会联合发表战略研究报告《迈向精准医学:建立生物医学与疾病新分类学的知识网络》,首次提出“精准医学”概念,并提出“百万美国人基因组计划”等大项目建议。
- 2012年,知名医学杂志《柳叶刀》和《新英格兰医学》先后对该报告进行了评估。
- 2014年,欧盟发布创新药物II期计划战略研究议程,核心主题是实现”精准医学“——针对重点疾病为合适的病人在合适的时间提供合适的治疗方案;安永在发布的生物技术行业年报中为医药企业提出”精准医学”的建议。
- 2015年1月,前美国总统奥巴马国情咨文中提出“精准医学计划“倡议(Precision Medicine Initiative,PMI)。提供2亿余美元,启动百万人基因组计划(即下文的全民健康项目),开展以癌症为主的遗传机制和治疗方法研究。主要内容包括:
(2)资助国家癌症研究所(NCI,隶属NIH)7000万美元,继续美国癌症基因组研究计划,寻找引发癌症的遗传因素,开发更加有效的癌症治疗方法,建立“癌症知识网络”,及时分享创新技术。
(3)资助食品药品监督管理局(FDA)1000万美元,建立新一代测序技术的评估和审批通道,获取新的专利并推进高质量数据库的开发。
(4)资助国家医疗信息技术协调办公室(ONC)500万美元,用于制定一系列的相关标准和政策,以保护隐私和跨系统数据交换安全。
美国的精准医学计划一经推出,随即在世界范围内得到广泛的关注,包括英国、法国、中国、阿联酋等各国和地区启动数以十万级乃至百万级基因组计划(以英国开展的UK100K最为突出,见下文),并逐渐发展成为当今生物医学领域的一个主要潮流。
自2016年至今,我国基因组大科学计划发展迅猛,加速投入基础研究和产业发展,推动基因等生命组学大数据与医疗信息化、智能化的融合:
- 2015年,我国科技部和国家卫计委先后召开精准医学战略专家会议,拟在2030年前,在精准医疗领域共投入600亿元,大力推进国内基因行业发展;
- 2016年, 国家科技重大专项“十三五”发展规划“精准医学研究”重点专项计划(2016-2020)正式启动;
- 2017年,作为精准医学专项的重要组成部分“中国十万人基因组计划”启动,由哈尔滨工业大学王亚东院长牵头,据项目团队的公开介绍,截止2022年8月完成3万余个样本的全基因组测序,发现超过1.1亿个新变异,构建中国人参考基因组面板;
- 2018年,上海市首批市级科技重大专项“国际人类表型组计划(一期)”正式启动,由复旦大学金力院士牵头,旨在首次建立国际领先的人类表型组学研究平台,为实质性推进人类表型组大科学计划打好基础。
在基因组、表型组等生命组学计划大规模开展建立组学大数据“基线”同时,部分一线城市的三甲医院早在五年前开始探索,通过“临床信息+组学大数据+数字技术”建立相关临床领域(例如新生儿、罕见病、生殖健康、耳聋、肿瘤等)或病种的数字化中心或平台,例如复旦儿科医院、华西医院、协和医院、解放军总医院海南医院。(限于篇幅,更多详情将在《2023基因行业蓝皮书》中进一步探讨。)
《2023基因行业蓝皮书》诚邀联合发布单位
基因慧连续6年公开发布
(已合作:罗氏诊断、字节跳动、星云基因)
结合生命组学大数据和医疗信息化的数字生命健康,正在逐步深入启发甚至改变基础研究和应用研究的研究范式,最具代表是基于大数据的临床研究和新药临床试验。
在临床研究方面,传统的随机对照试验是循证医学的金标准,目前在此基础上发展出基于分子生物标志物和分子分型基础的“伞试验”和“篮试验”,可以从中医层面分别理解为“同病异治”和“异病同治”。
伞试验代表产品是非小细胞肺癌的分子分型(例如EGFR、ALK、KRAS等);篮试验代表产品及上文提及的泛癌种靶向药原肌球蛋白受体激酶(TRK)抑制剂拉罗替尼(Larotrectinib)。
近年,除了伞试验和篮试验,还衍生出平台试验(platform trial)——在同一个研究平台上平行开展在多个不同分子标志物指导下的单臂药物试验(无需随机对照组)——即主方案设计(master protocols)。在主方案设计上加上近年兴起的真实世界证据(Real World Evidence,RWE),即是主观察试验(MOT)。2020年7月,FDA基于RWE合成对照臂的II期试验结果首次批准了一种治疗癌症的二线药物CD19靶向单抗Tafasitamab(商品名:MONJUVI)。
真实世界数据(Real World Data, RWD)是RWE的核心部分,主要指患者健康状况和/或医疗服务相关数据。
我国国家药监局认定10种类型的数据为RWD,包括:
美国国会在2016年通过的《21世纪治疗法案》中提出,日常临床实践中产生的丰富多样的真实世界数据,如电子健康档案和医保数据等构成的“真实世界证据”可以作为临床试验证据之外的补充证据。两年后,FDA公布了《真实世界证据方案框架》,并明确提出RWE可以作为合成对照臂(synthetic control arm)整合到传统的单臂临床试验。
2019年,真实世界数据首次用于FDA新药批准,即辉瑞的爱博新(Ibrance)与芳香化酶抑制剂或氟维司群(fulvestrant)联合用于治疗患有HR +和HER2-转移性乳腺癌的男性患者。2022年,FDA仅基于真实世界证据批准了首个PROS(PIK3CA相关过度生长谱系)治疗药物Vijoice。
在真实世界数据的应用方面,我国在早期保持着较快的同步发展。
2019年,国家药监局与海南省联合启动了海南临床真实世界数据应用试点工作。2020-2021年国家药监局先后发布了《真实世界证据支持药物研发与审评的指导原则(试行)》和《用于产生真实世界证据的真实世界数据指导原则(试行)》。2021年3月,我国首款RET抑制剂普拉替尼(pralsetinib)正式获批上市,这是首个使用海南博鳌乐城真实世界数据辅助临床评价获批的药品。
基于传统医学信息、分子标志物以及真实世界数据,学术上最有代表的项目是英国的UK Biobank。英国在2010年提出万人基因组计划(UK10K),由知名的Wellcome Sanger Institute牵头,英国卫生部参与,2015年Nature刊发了该项目的多篇研究成果。2012年,UK10K拓展至UK 100K即十万人基因组计划,并在2018年宣布启动500万人基因组计划,这是迄今为止由政府主导的最大的基因组学研究项目。
对于科研及临床的合作体系:UK 100K首先对基因组数据和临床数据进行脱敏,经专家委员会对科研人员提交的科研方案进行审核,然后将研究结果通过潜在诊断系统返回至各区域中心。各医学中心可快速获知科研人员最新鉴定的变异,并使用更新的分析流程对病例进行重新分析,进而实现科研成果和临床应用的无缝衔接,实现患者更快受益。
基于基因及临床大数据的整合及临床科研合作体系,以颅缝早闭为例,诊断灵敏度达到85%
对于数据的价值及产业化,《数字中国建设整体布局规划》提到:释放商业数据价值潜能,加快建立数据产权制度,开展数据资产计价研究,建立数据要素按价值贡献参与分配机制。
作为数字生命健康,正推动生物医学等领域研究进入大数据时代,促进产业的融合,特别是BT(生物技术)、IT(信息技术)和DT(数字技术)的融合。
其中的一个核心纽带是极具大规模、结构化及信息量的大数据。
从数据规模上,以上文提到的癌症基因组项目TCGA计划为例,在2018年结束时总共产生了2.5EB的数据(1EB=1024PB)。这是一个什么概念,国内最大电商平台“双11”的处理数据量为970PB(2019年公开数据)。且随着2023年百元人全基因组的到来,基因等生命组学大数据规模将很快超过互联网。
从结构上,以基因测序数据为例,可量化,与临床大多数表型(表型数据库在完善中)具有线性或网状对应关系,且以文本形式极易与IT及DT系统融合。
从信息量上,基因等生命组学代表代表着生命体的过去(基因组)、现在(基因突变及表达谱、代谢组)及未来(驱动基因),正逐步深入应用于医疗疾病的防控、健康早筛、农业育种、工业的合成生物、生物多样性保护等等。
“BT+IT+DT”的融合,构建生命健康大数据,在前瞻性战略布局、产业链整合及市场开拓方面蕴含重大价值。
例如,在制药领域,罗氏(Roche)在2018年以19亿美元收购Flatiron Health,以24亿美元收购了Foundation Medicine。 结合前者的临床数据平台和后者的癌症患者基因组数据库,协助设计临床试验、新药研发以及制定个性化治疗方案;百时美施贵宝(BMS)在2019年宣布和Concerto HealthAI达成合作,将在临床试验设计中使用RWD和AI技术。与药企合作的类似机构还包括Tempus,Cota healthcare等,通过基因测序、临床数据结构化、病理图像分析和生物建模实现数据的合规商业价值潜能释放,加速临床科研及药物研发等,最终造福医患。
尽管这些中小型机构与药企形成“联姻”,但仍然作为配角提供基础服务。笔者认为,基于产业的周期和数据价值体系的逐渐规范化,未来10年,数字生命健康领域会诞生与Google同等规模的平台企业。目前可参考的平台企业雏形是2023年JP摩根健康大会上亮相的一个机构——Velsera。
这起收购的背后操刀手是瑞典私募股权基金Summa Equity合伙人Hans Cobben,他曾是BlueBee(后被Illumina收购)创始人,曾服务于阿尔卡特朗讯、SWIFT等公司。
三者的优势结合稳固而互补。Seven Bridges具备完善的基因数据初级分析及云平台,Pierian擅长数据高级分析和解读,UgenTec为数字互联实验室提供工作流自动化、大规模测试结果解读和实时洞察的信息管理系统。目前的框架构建了数据分析、解读和实验室自动化信息管理的强大体系。
但Velsera的野心不止于此,2023年3月8日,据CEO Gavin Nichols对媒体披露,在2023年底之前将完成另外5-6项并购。基因慧预测潜在被并购企业可能涉及测序仪、单细胞系统、AI数据挖掘、医疗信息化、区块链等领域。
国内此领域的代表公司可以关注生命奇点、零氪科技(LinkDoc)、神州医疗、聚道科技(GeneDock)等。目前仍在初级发展阶段,侧重点主要在临床信息化与基因大数据的整合、数据分析流程化以及辅助决策系统,完整的组学大数据管理系统及数字化中心仍需进一步优化或建设,未来仍有很长的路要走,特别是资金投入、数据整合及开放协作平台开发等。
“数字中国”的布局,除了早期的基础设施建设,从中长期的应用前景及市场价值上,“数字生命健康”将极可能成为重点应用领域,需纳入初期的规划及顶层设计中。
而根据上文的初步分析,数字生命健康涉及BT、IT及DT的跨学科、跨领域的技术及产业,且属于前沿科技及新兴产业领域,人才和项目非常“紧俏”,这方面将可见一场激烈的数字产业竞赛。
目前,仅从细胞和基因治疗、合成生物等产业方面,上海、深圳、北京、杭州等地纷纷制定专项产业政策甚至立法(《深圳经济特区细胞和基因产业促进条例》于2023年3月1日起实施),而国内这方面高端人才紧缺,创新项目也均在发展早中期,因此没有现成的“果子”摘,在产业规划方面如何配套专业人才引进、培育及项目孵化,是对各个区域发展中心的大考。
除了特大城市,我们看到南京、长沙、青岛、常州、无锡等地也在积极布局。例如长沙湘江新区的基因谷以基因大数据为主题方向规划,引进企业50家以上,打造千亿产业集群;青岛自贸片区打造时空基因谷,开发海洋基因组等等。基因大数据在开发产品和应用场景中,将从深度和广度上与医疗、农业、海洋等深度融合,拓宽边界,挖掘价值。(更多区域的生命健康产业的分析将在“基因慧”后续文章中体现)。
同时,在数字生命健康的科技及产业发展过程中,合规是非常敏感、严肃和重要的底线。在数据开发应用和市场发展中,尤其要注重隐私保护、生命伦理、数据安全及可控共享等方面。
国际科学理事会数据委员会(CODATA)2019年11月发布了《科研数据北京宣言》,其原则之一就是鼓励国家间数据开放与共享。我国政府在2021年先后通过了《中华人民共和国数据安全法》和《中华人民共和国个人信息保护法》,进一步规范的数据和信息的开发利用,未来需要进一步细化相关行业指南,明确操作细则和红线。
(限于篇幅,更多详情请见基因慧将连续第六年发布的《2023基因行业蓝皮书》,欢迎参与联合发布合作)
【注】本文基于产业分析角度进行讨论,不作为临床诊疗依据;
版权所有,未经允许不得转载。基因慧—数字生命健康产业内容平台 » “数字中国”的创新高地:数字生命健康——基因产业高质量发展思考(二)