前列腺癌(prostate cancer, PCa)是男性高发恶性肿瘤之一。在我国,前列腺癌的发病率呈现逐年上升趋势,并且发病年龄也日趋年轻化,这可能与人均寿命延长、人口老龄化以及诊断技术的提高有关。前列腺癌侵袭转移的分子机制研究、患者预后的评估是前列腺癌防治中的重要方面。如何确定介导前列腺癌侵袭性表型的分子特征,目前仍然是临床上一个主要的挑战。
2021年9月22日,美国丹娜-法伯癌症研究所的Eliezer M. Van Allen团队在《自然》杂志上发表了一篇文章揭示了深度神经网络在前列腺癌发现中的应用。他们开发的工具P-NET是一种基于生物学信息的深度学习模型,该模型可以根据治疗-耐药状态对前列腺癌患者进行分层,并通过完整的模型可解释性来评估癌症治疗中耐药性的分子驱动因素。
经证明,P-NET可以利用分子数据来预测癌症状态,其性能优于其他建模方法。此外,P-NET的生物学可解释性揭示了已知的和新的分子改变候选基因,如MDM4和FGFR1,这些候选基因与预测晚期癌症有关,并在体外实验中得到验证。生物学上的完全可解释的神经网络使前列腺癌的临床前发现和临床预测成为可能,并可能普遍适用于其他类型的癌症。
那么,接下来跟随小编来了解一下该模型的神奇之处吧。
可解释的生物信息的深度学习
图1.可解释的生物学信息深度学习
P-NET是一种神经网络结构,它将不同的生物实体编码成一种神经网络语言,并在连续层之间进行自定义连接(即来自患者特征、基因、通路、生物过程和结果的特征)。该研究主要关注处理突变和拷贝数的改变。经过训练的P-NET提供了每一层节点的相对排序,以告知生物学假说的生成。实线表示从输入到生成结果的信息流,虚线表示计算不同节点的重要性得分的方向。验证候选基因,以了解其功能和作用机制。
P-NET的预测性能
图2.P-NET预测性能
研究人员用一组包含1013例前列腺癌的样本来训练和测试P-NET ,其中有333例去势抵抗性前列腺癌(CRPC)和680例原发性癌。整个过程包括80%的训练,10%的验证和10%的检测,使用体细胞突变和拷贝数的数据来预测疾病状态。训练后的P-NET表现优于典型的机器学习模型(包括线性和径向基函数支持向量机、逻辑回归和决策树),P-NET模型AUC为0.93,AUPR为0.88,准确率为0.83。此外,作者还评估了稀疏模型是否具有不同于密集的全连接深度学习模型的特征。在训练集上训练了一个具有与P-NET模型相同参数数量的密集模型,样本数量从100到811个(占样本总数的80%)。P-NET模型的平均性能(AUC值) 在所有样本量中都高于密集模型,并且这种差异在较小样本量(最多500个)中具有统计学意义(图2c)。
接下来,研究者使用另外两个前列腺癌验证队列对模型的预测方面进行了外部验证,一个原发性的,一个是转移性的。训练后的P-NET模型正确分类了73%的原发肿瘤和80%的转移性肿瘤,这表明该模型具有足够的预测性能,可以应用于预测未见过的样本 (图2b)。原发肿瘤样本被P-NET错误地归类为去势耐药转移性肿瘤的患者实际上可能有更差的临床结果。P-NET评分高的患者被误诊为耐药的患者明显比P-NET评分低的患者更容易发生生化复发,这表明对于原发性前列腺癌患者,P-NET评分可用于预测潜在的生化复发(图2d)。
三、检查和解释P-NET
为了了解有助于预测性能的不同特征、基因、通路和生物过程之间的相互作用,并研究从输入到结果的影响路径,研究者在训练后使用完全可解释的层将P-NET的整个结构可视化(图3)。
图3.检查和解释P-NET
P-NET内层的可视化显示了每层中不同节点的估计的相对重要性。最左边的节点代表特征类型;第二层的节点代表基因;下一层代表更高级别的的生物实体;最后一层代表模型的结果。颜色较深的节点更重要,而透明节点代表每一层中未显示节点的剩余重要性。为了评估特定基因对模型预测的相对重要性,作者检查了基因层,并使用Deep-LIFT归因方法获得了基因的总重要性得分。排名较高的基因包括AR、PTEN、RB1和TP53,这些基因是已知的与转移性疾病相关的前列腺癌驱动因子。使用桑基图描述了特定数据类型对每个基因重要性的贡献。例如,AR基因的重要性主要由基因扩增驱动,TP53的重要性由突变驱动,PTEN的重要性由缺失驱动。
四、P-NET的临床和功能评价
通过对P-NET训练模型的多层评估,研究者观察到TP53相关生物学对CRPC的收敛性。追踪TP53相关通路与基因水平的相关性,TP53和MDM2在前列腺癌进展中的作用是已知的。研究者还观察到MDM4的改变,这在很大程度上促进了这种网络的收敛。MDM4在前列腺癌耐药性中的作用尚未完全确定,但它可以通过结合并掩盖转录激活域抑制野生型TP53的表达。
图4.P-NET的临床和功能评价
接着,该团队研究了临床样本和功能模型中的MDM4谱。MDM4的高扩增在耐药样本中更为普遍。图4a显示了AR、TP53和MDM4基因的变化。在LNCaP细胞中使用17255个开放阅读框(ORF)进行的全基因组功能获得临床前筛选中,MDM4过表达与苯扎鲁胺的耐药性显著相关(苯扎鲁胺是一种用于治疗CRPC患者的第二代抗雄激素药物)(图4b)。然后,作者使用CRISPR-Cas9在多个前列腺癌细胞系中敲除MDM4。与阴性对照组相比,前列腺癌细胞的增殖明显减少。这表明选择性靶向抑制MDM4可能适用于治疗晚期的TP53野生型前列腺癌患者。作者试图研究MDM4对突变型和野生型前列腺细胞系的抑制作用。与TP53突变的细胞系相比,具有野生型TP53的前列腺癌细胞对MDM4选择性抑制剂RO-5963(也能抑制MDM2)更敏感(图4d)。
五、总结
总的来说,P-NET是基于生物学信息,而不是利用任意的过度参数化的架构来进行预测的。因此,P-NET显著减少了学习参数的数量,从而提高了可解释性。与包括密集网络在内的其他机器学习模型相比,P-NET中的稀疏架构具有更好的预测性能,并可能适用于其他类似的任务。
此外,P-NET提供了一种简单的方法来整合多个分子特征(例如,突变、拷贝数变异和融合等)进行不同的加权,以反映它们在预测最终结果中的重要性,以前需要对每个特征采用不同的统计方法来发现癌症基因。P-NET根据患者的基因组谱准确预测晚期前列腺疾病,并有能力预测潜在的生化复发。P-NET结构的可视化使得对相关的生物学途径和过程有了多层次的见解,这可能有助于指导研究人员探索有关癌症进展的潜在生物学过程,并将这些发现转化为治疗机会。具体来说,P-NET重新发现了与CRPC相关的已知基因,如AR、PTEN、TP53和RB1。此外,P-NET还确定了MDM4为前列腺疾病相关基因,这已通过实验得到验证,并得出使用MDM4选择性抑制剂可以治疗转移性前列腺癌的基因组分层(TP53野生型)患者。
总之,P-NET是一种基于生物学信息的深度神经网络,它准确地分类了去势抗性转移癌和原发性前列腺癌。可视化训练后的模型,产生了前列腺癌转移机制的新假说,并为分子分层前列腺癌患者群体的临床转化提供了直接的有潜力的观点。生物引导的神经网络代表了一种通过建立机制预测模型,将癌症生物学与机器学习相结合的新方法,为生物学发现提供了一个平台,可能广泛适用于癌症预测和发现任务。
Reference:
Elmarakeby, Haitham A et al. “Biologically informed deep neural network for prostate cancer discovery.” Nature vol. 598,7880 (2021): 348-352. doi:10.1038/s41586-021-03922-4