万人癌症全基因组测序和临床数据整合分析揭示肿瘤精准医学新见解
10万人基因组计划(100kGP)是英国政府在英国国家医疗服务体系(NHS)内开展的一项变革性举措,旨在通过自动化的国际组织为癌症和罕见疾病患者建立标准化的高通量全基因组测序(WGS),以推动人们对不同癌症的了解。100kGP中的癌症基因组部分是一项为癌症患者提供WGS的研究项目,研究人员分析了10万人基因组计划中的13,880个实体肿瘤及匹配的正常样本的WGS数据,覆盖了33个肿瘤类型,包括93.6%的治疗前病例和6.4%的新辅助治疗后病例。重点关注了临床上可操作的基因和泛基因组标记,与患者实际临床、治疗和长期生存数据的关联。
研究者对来自NHS内15,241名被诊断患有癌症的患者的16,358个肿瘤-正常样本对进行了测序,并综合全基因组分析(WGA)涵盖了13,880个肿瘤样本的 33 种肿瘤类型,其中包括13,311个新鲜冷冻样本(95.9%)和569个福尔马林固定石蜡包埋肿瘤样本(4.1%)。匹配的正常(胚系)样本包括 13,493 份(99.1%)血液样本、100份(0.7%)来自正常组织样本和23份(0.2%)来自唾液样本。来自血液肿瘤(n = 841)、儿科癌症(n = 333)、 原发灶未知的癌症(n = 98)以及与外部数据集无关的肿瘤(n = 1,206)的基因组被排除在本次分析之外。另外,通过将基因组数据与临床数据集关联,确认了样本采集时提交的诊断。
肿瘤-正常样本配对的全基因组测序分析可同时检测体细胞中多种遗传变化,包括单核苷酸变异(SNV)、插入和缺失(indel)、拷贝数变异(CNA)和结构变异(SV)等,从而提供更全面的肿瘤遗传图谱(图1)。研究发现,不同癌症类型的体细胞突变发生率各异,例如乳腺浸润性癌(BRCA)、卵巢高级别浆液性癌(HGSOC)、子宫内膜癌(EC)和肺鳞状细胞癌(LUSC)等癌症中有20%-49%的病例存在临床相关突变,胰腺癌、前列腺癌、食管癌和胃腺癌等其他类型癌症中,有不到20%的病例携带NGTDC(国家基因组测试目录)中存在的基因突变。这些突变可能会影响患者的治疗方案,从而为患者制定手术或接受特定治疗提供指导。
研究团队对13,880例肿瘤样本中的体细胞变异进行了深入分析,发现最常见的突变基因是TP53(约占39.0%)。在不同癌症类型中,TP53基因突变的频率各不同,但在子宫浆液性癌(USC)、HGSOC、LUSC、直肠腺癌、食管腺癌和食管鳞状细胞癌中频率最高(超过了70%)。PIK3CA是第二大最常发生突变的基因(约占19.8%),其最常见的突变密码子是E545和H1047;其他基因如APC、KRAS、VHL和IDH1仅在一种或两种肿瘤类型中高度富集突变。这些发现揭示了体细胞变异在多种癌症类型中的普遍性和重要性,这些突变可能对癌症的发生、发展和治疗产生重大影响。
在所有癌症类型中,TP53、CDKN2A、MYC、CDKN2B和PTEN的扩增或缺失发生率较高。多形性胶质母细胞瘤(GBM)、低度胶质瘤、头颈部鳞状细胞癌、间皮瘤和肉瘤的临床相关CNAs数量最高。特别地,错配修复(MMR)基因胚系变异患者的结肠腺癌发病年龄明显提前;同源重组修复基因胚系变异患者的HGSOC和BRCA发病年龄明显提前。
与经常在无正常对照的肿瘤样本上进行的靶向小panel测试不同,配对的肿瘤和正常WGS可以同时检测体系变异和胚系变异。变异起源的确定性可能会对患者管理产生影响。例如卵巢高级别浆液性癌患者的SNV和插入缺失的可操作胚系发现的患病率最高,其中13%的患者携带BRCA1和BRCA2基因变异。正如预期的那样,那些具有胚系易感基因变异的患者在肿瘤诊断时的中位年龄更年轻。值得注意的是,错配修复(MMR)基因胚系变异的患者结肠腺癌的发病年龄明显较早,而同源重组修复基因胚系变异的患者在卵巢高级别浆液性癌和乳腺浸润性癌中的发病年龄明显较早。
TMB(肿瘤突变负荷)被认为是一种潜在的生物标志物。在该研究数据集中,不同癌症类型之间以及相同类型癌症内部存在显著差异。与先前报道一致,研究团队发现皮肤黑色素瘤(SKCM)和肺腺癌的平均TMB较高;结肠腺癌和EC在是否存在微卫星不稳定性或由 POLE突变引起的高突变方面表现出差异;HGSOC的HRD患病率最高(40%)。在分析具有明确病因的突变特征时(COSMICv.3),研究团队观察到了某些癌症类型的预期突变频率特征。
这些发现证明了WGS数据能够充分表征肿瘤的临床基因组景观。一次检测即可报告体细胞SNV、基因融合和CNA,以及潜在致病性胚系突变以及突变特征和 TMB 等全基因组标记(图 2)。在补充信息中,研究者提供了WGA 结果示例。例如,在一名卵巢高级别浆液性癌患者基因组数据中,发现了与诊断一致的体细胞TP53 SNV突变,以及胚系 BRCA1变异和导致HRD的体细胞BRCA1拷贝数 (CN)丢失,随后得到了人力资源开发分析。同样,另一例的子宫内膜癌患者,结合高TMB、PMS2致病性胚系变异、体细胞PMS2起始缺失突变和 DPYD基因中的药物基因组(胚系)变异,鉴定出了 MMR缺陷特征(与氟嘧啶的毒性有关)。这些例子证明了不同类型突变和泛基因组标记的识别,具有临床相关性的实际应用。
通过将WGS数据与纵向生命过程临床数据(SACT和ONS)相结合,研究团队评估了根据泛基因组标志物对患者进行分层治疗的结果(图3b)。在接受铂类药物治疗的患者中,HRD预测了更好的治疗结果,特别在BRCA和HGSOC患者中。研究团队将TMB作为预后标志物进行了评估。结果显示,在SKCM患者中,TMB最低四分位数与TMB最高四分位数患者的生存率存在显著差异;肺腺癌中未观察类似显著差异。上述结果表明TMB水平与预后相关,并支持了进一步优化泛基因组生物标志物作为预后和免疫治疗反应预测标志物的必要性。
通过全基因组测序(WGS),研究人员能够探索NGTDC(国家基因组测试目录)中的癌症基因受到小变异和CNAs影响的共存情况。研究将案例分为每个基因有无小变异的两组,然后比较了这两组中每个基因的CNAs频率(如图4a所示)。经过多重测试校正后,发现12个基因在拷贝数变化频率上表现出显著差异。研究确认了以往的发现,即在特定癌症类型中,当存在潜在激活的SNV时,EGFR和KIT基因倾向于被扩增。此外,研究还发现,在存在影响BRAF、KRAS、NRAS、CTNNB1和FGFR2等基因的小变异时,这些致癌基因的拷贝数增益显著共存。同样地,研究还发现五个肿瘤抑制基因或具有双重作用的基因,在存在体细胞小变异的情况下,拷贝数损失的频率显著增加,其中包括已知的例子如TP53、RB1、CDKN2A和APC,这进一步强调了同时解读不同类型变异的价值。
使用实际预后数据的患者生存分析
研究团队依据40个NGTDC指示基因的突变存在与否,对33种癌症类型患者进行分层,并评估了总生存期;来自HES和ONS等二级数据源的临床数据提供了生存数据。在校正分期和多重测试后,发现共15个基因影响了总生存期(图4b),对患者预后影响最大的基因是CDKN2A,这与其在一些癌症亚型中与高级别疾病和不良预后的关联相一致;PIK3CA突变与良好预后相关,与文献报道一致。
总结与结论
100kGP计划为整合基因组和纵向临床生命历程数据建立了基础设施和资源,突显了全基因组测序在癌症研究和精准治疗中的重要性。该研究将基因组数据与真实世界的临床和治疗数据相结合,揭示了以体细胞突变为代表的WGS测序数据能够提供额外的信息增量。通过该研究获得的开源数据库,如不同癌症的突变频率和TMB等具有临床价值的标志物,可为未来的类似研究奠定基础。
参考文献
Sosinsky, A., Ambrose, J., Cross, W. et al. Insights for precision oncology from the integration of genomic and clinical data of 13,880 tumors from the 100,000 Genomes Cancer Programme. Nat Med 30, 279–289 (2024). https://doi.org/10.1038/s41591-023-02682-0
研究者对来自NHS内15,241名被诊断患有癌症的患者的16,358个肿瘤-正常样本对进行了测序,并综合全基因组分析(WGA)涵盖了13,880个肿瘤样本的 33 种肿瘤类型,其中包括13,311个新鲜冷冻样本(95.9%)和569个福尔马林固定石蜡包埋肿瘤样本(4.1%)。匹配的正常(胚系)样本包括 13,493 份(99.1%)血液样本、100份(0.7%)来自正常组织样本和23份(0.2%)来自唾液样本。来自血液肿瘤(n = 841)、儿科癌症(n = 333)、 原发灶未知的癌症(n = 98)以及与外部数据集无关的肿瘤(n = 1,206)的基因组被排除在本次分析之外。另外,通过将基因组数据与临床数据集关联,确认了样本采集时提交的诊断。
肿瘤-正常样本配对的全基因组测序分析可同时检测体细胞中多种遗传变化,包括单核苷酸变异(SNV)、插入和缺失(indel)、拷贝数变异(CNA)和结构变异(SV)等,从而提供更全面的肿瘤遗传图谱(图1)。研究发现,不同癌症类型的体细胞突变发生率各异,例如乳腺浸润性癌(BRCA)、卵巢高级别浆液性癌(HGSOC)、子宫内膜癌(EC)和肺鳞状细胞癌(LUSC)等癌症中有20%-49%的病例存在临床相关突变,胰腺癌、前列腺癌、食管癌和胃腺癌等其他类型癌症中,有不到20%的病例携带NGTDC(国家基因组测试目录)中存在的基因突变。这些突变可能会影响患者的治疗方案,从而为患者制定手术或接受特定治疗提供指导。
研究团队对13,880例肿瘤样本中的体细胞变异进行了深入分析,发现最常见的突变基因是TP53(约占39.0%)。在不同癌症类型中,TP53基因突变的频率各不同,但在子宫浆液性癌(USC)、HGSOC、LUSC、直肠腺癌、食管腺癌和食管鳞状细胞癌中频率最高(超过了70%)。PIK3CA是第二大最常发生突变的基因(约占19.8%),其最常见的突变密码子是E545和H1047;其他基因如APC、KRAS、VHL和IDH1仅在一种或两种肿瘤类型中高度富集突变。这些发现揭示了体细胞变异在多种癌症类型中的普遍性和重要性,这些突变可能对癌症的发生、发展和治疗产生重大影响。
在所有癌症类型中,TP53、CDKN2A、MYC、CDKN2B和PTEN的扩增或缺失发生率较高。多形性胶质母细胞瘤(GBM)、低度胶质瘤、头颈部鳞状细胞癌、间皮瘤和肉瘤的临床相关CNAs数量最高。特别地,错配修复(MMR)基因胚系变异患者的结肠腺癌发病年龄明显提前;同源重组修复基因胚系变异患者的HGSOC和BRCA发病年龄明显提前。
与经常在无正常对照的肿瘤样本上进行的靶向小panel测试不同,配对的肿瘤和正常WGS可以同时检测体系变异和胚系变异。变异起源的确定性可能会对患者管理产生影响。例如卵巢高级别浆液性癌患者的SNV和插入缺失的可操作胚系发现的患病率最高,其中13%的患者携带BRCA1和BRCA2基因变异。正如预期的那样,那些具有胚系易感基因变异的患者在肿瘤诊断时的中位年龄更年轻。值得注意的是,错配修复(MMR)基因胚系变异的患者结肠腺癌的发病年龄明显较早,而同源重组修复基因胚系变异的患者在卵巢高级别浆液性癌和乳腺浸润性癌中的发病年龄明显较早。
TMB(肿瘤突变负荷)被认为是一种潜在的生物标志物。在该研究数据集中,不同癌症类型之间以及相同类型癌症内部存在显著差异。与先前报道一致,研究团队发现皮肤黑色素瘤(SKCM)和肺腺癌的平均TMB较高;结肠腺癌和EC在是否存在微卫星不稳定性或由 POLE突变引起的高突变方面表现出差异;HGSOC的HRD患病率最高(40%)。在分析具有明确病因的突变特征时(COSMICv.3),研究团队观察到了某些癌症类型的预期突变频率特征。
这些发现证明了WGS数据能够充分表征肿瘤的临床基因组景观。一次检测即可报告体细胞SNV、基因融合和CNA,以及潜在致病性胚系突变以及突变特征和 TMB 等全基因组标记(图 2)。在补充信息中,研究者提供了WGA 结果示例。例如,在一名卵巢高级别浆液性癌患者基因组数据中,发现了与诊断一致的体细胞TP53 SNV突变,以及胚系 BRCA1变异和导致HRD的体细胞BRCA1拷贝数 (CN)丢失,随后得到了人力资源开发分析。同样,另一例的子宫内膜癌患者,结合高TMB、PMS2致病性胚系变异、体细胞PMS2起始缺失突变和 DPYD基因中的药物基因组(胚系)变异,鉴定出了 MMR缺陷特征(与氟嘧啶的毒性有关)。这些例子证明了不同类型突变和泛基因组标记的识别,具有临床相关性的实际应用。
通过将WGS数据与纵向生命过程临床数据(SACT和ONS)相结合,研究团队评估了根据泛基因组标志物对患者进行分层治疗的结果(图3b)。在接受铂类药物治疗的患者中,HRD预测了更好的治疗结果,特别在BRCA和HGSOC患者中。研究团队将TMB作为预后标志物进行了评估。结果显示,在SKCM患者中,TMB最低四分位数与TMB最高四分位数患者的生存率存在显著差异;肺腺癌中未观察类似显著差异。上述结果表明TMB水平与预后相关,并支持了进一步优化泛基因组生物标志物作为预后和免疫治疗反应预测标志物的必要性。
通过全基因组测序(WGS),研究人员能够探索NGTDC(国家基因组测试目录)中的癌症基因受到小变异和CNAs影响的共存情况。研究将案例分为每个基因有无小变异的两组,然后比较了这两组中每个基因的CNAs频率(如图4a所示)。经过多重测试校正后,发现12个基因在拷贝数变化频率上表现出显著差异。研究确认了以往的发现,即在特定癌症类型中,当存在潜在激活的SNV时,EGFR和KIT基因倾向于被扩增。此外,研究还发现,在存在影响BRAF、KRAS、NRAS、CTNNB1和FGFR2等基因的小变异时,这些致癌基因的拷贝数增益显著共存。同样地,研究还发现五个肿瘤抑制基因或具有双重作用的基因,在存在体细胞小变异的情况下,拷贝数损失的频率显著增加,其中包括已知的例子如TP53、RB1、CDKN2A和APC,这进一步强调了同时解读不同类型变异的价值。
使用实际预后数据的患者生存分析
研究团队依据40个NGTDC指示基因的突变存在与否,对33种癌症类型患者进行分层,并评估了总生存期;来自HES和ONS等二级数据源的临床数据提供了生存数据。在校正分期和多重测试后,发现共15个基因影响了总生存期(图4b),对患者预后影响最大的基因是CDKN2A,这与其在一些癌症亚型中与高级别疾病和不良预后的关联相一致;PIK3CA突变与良好预后相关,与文献报道一致。
总结与结论
100kGP计划为整合基因组和纵向临床生命历程数据建立了基础设施和资源,突显了全基因组测序在癌症研究和精准治疗中的重要性。该研究将基因组数据与真实世界的临床和治疗数据相结合,揭示了以体细胞突变为代表的WGS测序数据能够提供额外的信息增量。通过该研究获得的开源数据库,如不同癌症的突变频率和TMB等具有临床价值的标志物,可为未来的类似研究奠定基础。
参考文献
Sosinsky, A., Ambrose, J., Cross, W. et al. Insights for precision oncology from the integration of genomic and clinical data of 13,880 tumors from the 100,000 Genomes Cancer Programme. Nat Med 30, 279–289 (2024). https://doi.org/10.1038/s41591-023-02682-0