基因表达谱深度学习,原发灶不明转移癌诊断的曙光 | 生命探哨

关键词/原发灶不明转移癌 RNA-Seq    文/基因慧

元码基因董事长&首席科学家田埂老师“有5%的肿瘤在发现的时候已经是多发转移,现代医学对不同原发部位肿瘤的治疗方案是不同的,不同的药物在不同的部位产生的效果也不尽相同。因此,了解肿瘤的原发位置对治疗至关重要”

点评专家简介

田埂  

元码基因董事长&首席科学家

2012-2015年 清华大学基因组与合成生物学中心主任

2010-2012年 华大基因华北片区负责人

2007-2010年 深圳华大基因研究院技术平台副主管

中国遗传协会产业促进委员会副主任委员

北京市科委高通量测序项目专家

全国卫生产业企业管理协会副主任委员

金鸡湖人才计划科技领军人才

主持和参与多项国家“863”“973”项目以及“千人基因组计划”等国际合作项目,以通讯作者和第一作者在Nature等国际顶级期刊发表论文20余篇,拥有国际国内专利20多项

划重点1)约5% 的癌症无法找到原发病灶,被称为原发灶不明转移癌(CUP)。2)对于 CUP 患者的治疗常采用的广谱化疗药物,缺乏针对性,预后差。

3)癌种特有基因表达谱,可识别肿瘤的组织起源。

4)RNA-seq基因表达谱,识别21种肿瘤53个亚型起源,覆盖90%的实体瘤。

一、肿瘤患者的困扰

众所周知,在现有癌症诊疗体系中,明确原发部位仍是进行标准化治疗的基础,无法找到原发病灶将会大大增加有效临床治疗的难度,但是大约5%的癌症患者都会发生这种现象,这类癌症就称为原发灶不明转移癌(cancer of unknown primary, CUP)。

什么是原发灶不明转移癌?

它是指组织学确诊为转移癌,但经过详细病史询问、体格检查、血常规、生化检查、尿常规、大便常规及隐血试验、胸腹盆CT和免疫组化检查而未能明确其原发解剖部位的癌症。

为什么会产生原发灶不明转移癌?

① 原发灶被自身机体免疫机制识别、攻击,使原发灶自行消退;

② 原发病灶细微,现行的检查仪器尚不能发现其原发病灶;

③ 原发灶位置相对特殊,目前检查手段尚不能达到其位置;

④ 起初原发灶没有表现出来,而在治疗的过程中因药物、射线或手术切除后原发灶消失;

⑤ 患者病程进展较快,还未发现原发灶时患者即死亡。

目前对于 CUP 患者的治疗,通常采用广谱化疗药物,如紫杉醇联合铂类。由于经验性化疗缺乏针对性,化疗效果欠佳,预后差,并且副作用较大,患者生存质量明显下降。一项荟萃研究显示CUP患者接受化疗后中位生存时间为 4.5 个月,一年生存率为 20%,五年生存率仅 4.7%。

因此,明确肿瘤的原发部位,选择有针对性的治疗方案,对于提高疗效,延长患者生存时间具有重要的临床意义。同时,找出肿瘤原发灶并采取有针对性的治疗方案,还有助于缓解患者的心理压力,改善恐惧、焦虑、抑郁等不良情绪,增强患者对治疗的信心。

二、特有基因表达谱,识别肿瘤组织起源
目前临床上常用的CUP临床诊断方法为组织病理学、免疫组织化学(IHC)、影像学、肿瘤标记物、内镜等。据报道,即使进行了最全面的常规检查,仍有大约75 %的患者无法明确原发灶。近年来,随着分子生物学和生物信息学技术的飞速发展,临床研究发现,转移灶肿瘤的基因表达谱与转移部位组织的基因表达谱存在差异,而与其原发部位组织的基因表达谱更相似,因此提示肿瘤在其发生、发展、转移的过程中,始终保留其组织起源的基因表达特征。Ma 等通过 RT⁃PCR 检测肿瘤组织中 92 个基因的表达水平,并将 92 个基因的表达模式与数据库中多种癌症的基因表型进行比对,从而判别肿瘤原发部位,该方法判别原发灶的准确率为已达到 87% ,并且该研究已转化为名为CancerTYPE ID®的产品,应用于临床原发灶不明转移癌的鉴别诊断。

陈金影等. 原发灶不明转移癌的临床诊断[J]. 分子诊断与治疗杂志, 2017.

因此,凭借基因表达谱分子技术较高的原发灶检出率、灵敏度和特异性,该技术将成为原发灶不明转移癌鉴别诊断的新手段。

三、针对肿瘤组织,追本溯源,惠及患者

因此,针对原发灶不明转移癌难以诊断原发灶的困境,元码基因立足于转移灶肿瘤的基因表达谱与其原发部位组织的基因表达谱相似的研究结果,利用RNA-seq 技术检测百余个基因,通过分析基因表达谱,识别包括肺癌、胰腺癌、胃癌、结直肠癌在内的21种肿瘤的起源(涵盖53个亚型,90% 的实体瘤)。

元码基因肿瘤组织溯源检测的适用人群:

1) 目前原发灶诊断不明或有争议的患者;

2) 无法明确病灶是原发性还是转移性的患者;

3) 有多种癌症病史的患者;

4) 第一轮免疫组化结果不确定;

5) 临床病史和组织学诊断不同;

6) 有不典型的转移分布的患者;

7) 患者对治疗没有反应,怀疑诊断结果;

8) 肿瘤活检标本有限或很少,无法通过常规病理检测的患者。

元码基因肿瘤组织溯源检测研发路径:

1. 获取大量肿瘤患者基因表达谱数据 

利用元码基因内部临床数据库以及公共数据库,一共获取覆盖21个癌种(53个亚型)的7713个患者的肿瘤表达谱数据(涵盖20,501个基因),以及相应病例信息。主要包括肺腺癌(LUAD)、肝癌(LIHC)、甲状腺癌(THCA)、结肠腺癌(COAD)、卵巢癌(OV)和乳腺癌(BRCA)等。

表1 部分癌种原发灶样本信息

2. 利用算法进行特征筛选 

在原发灶数据集上通过随机森林(Random Forest)、逻辑回归(Logistic Regression)、支持向量机(SVM)三种不同方法来筛选分类的特征基因集。用肿瘤表达谱数据进行有监督式训练,选出权重最高的前N个基因作为候选特征列表。分别使用上述候选特征重新训练数据并进行测试,综合考量准确性和基因数量,最终筛选出约100个基因的特征集。

3. 选择最佳算法 

以随机森林、逻辑回归、支持向量机三种方法采用不同参数在数据集上进行交叉验证,并测试分类效果,以准确率、敏感性、特异性为标准从中选择最佳算法。

4. 最佳算法在数据集上的参数优化 

使用最佳算法在数据集上重新训练、测试,并进行参数优化,最佳算法对于21种癌症的多分类ROC曲线如下图所示:

图1 ROC曲线

横轴:假阳性率 (false postive rate FPR) 特异度,划分实例中所有负例占所有负例的比例;(1-Specificity)

纵轴:真阳性率 (true postive rate TPR) 灵敏度

5. 转移灶数据的预测

通过以上步骤得到的预测模型会对转移灶表达谱数据进行原发灶预测,在目前元码已有的转移灶数据集上测试,模型预测的精确度与敏感性如下表:

表2 模型预测转移灶数据集的精确度与敏感性

6. 中国人群临床真实样本测试

收集236例经临床诊断确诊发生转移的中国人群肿瘤样本,每例样本均包含原发灶和对应转移灶样本,涵盖肺腺癌、乳腺癌、结直肠癌、宫颈癌、胃癌等多个癌种,并对这些样本进行RNA-seq,将获得的数据利用组织溯源预测模型进行测试,结果显示原发灶预测准确率可达80%左右。

服务流程:

元码基因肿瘤溯源检测可以帮助原发灶不明转移癌患者明确原发肿瘤部位,从而有助于临床医生制定针对性的治疗方案,提高患者生存率和改善生存质量。

在此之后,元码将收集更多临床真实样本,进行大型、双盲、多中心验证试验,建立一个大样本量、涵盖更多种肿瘤类型的基因表达谱数据库,进一步提高检测的检出率和准确度,从而惠及更多的患者,不断提高患者生存率。元码基因作为一家专注肿瘤精准医疗的企业,更好的惠及患者是元码的使命。

参考资料:

1)陈金影等. 原发灶不明转移癌的临床诊断[J]. 分子诊断与治疗杂志, 2017.

资料来源:元码基因

编辑:Nicole

审核:Mark

声明:本文内容整理自合规信息,仅代表作者观点。本文属于原创内容,任何人未经许可不得转载或建立镜像等其他直接或间接用于商业用途。如果需用于学术,请在显著位置注明来自基因慧(微信GeneClub-1)。

 

版权所有,未经允许不得转载。基因慧:数字生命健康创新服务 » 基因表达谱深度学习,原发灶不明转移癌诊断的曙光 | 生命探哨

相关推荐

抢沙发