[发明专利]一种融合了单细胞TCR测序数据的肿瘤新生抗原筛选方法有效
申请号: | 202110443345.4 | 申请日: | 2021-04-23 |
公开(公告)号: | CN113160887B | 公开(公告)日: | 2022-06-14 |
发明(设计)人: | 蒋庆华;许召春;王平平;周文洋 | 申请(专利权)人: | 哈尔滨工业大学 |
主分类号: | G16B20/50 | 分类号: | G16B20/50;G16B50/00;C12Q1/6869;C12Q1/6886;G16B5/00;G16B30/10;G16B30/20 |
代理公司: | 西安铭泽知识产权代理事务所(普通合伙) 61223 | 代理人: | 姬莉 |
地址: | 150000 黑龙江省*** | 国省代码: | 黑龙江;23 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 融合 单细胞 tcr 序数 肿瘤 新生 抗原 筛选 方法 | ||
1.一种融合了单细胞TCR测序数据的肿瘤新生抗原筛选方法,其特征在于,包括如下步骤:
一、肿瘤患者个体化新生突变肽库的构建:获取配对肿瘤组织和癌旁组织的全外显子测序WES数据及转录组测序数据,并进行质控分析、单核苷酸变异分析,构建个体化新生突变肽库,用于下游抗原筛选;
二、肿瘤患者人类白细胞抗原HLA基因分型:通过肿瘤患者全外显子测序WES数据分析,利用能预测4位精度的HLA分型算法推断患者HLA-I分型,用于下游pHLA结合亲和力预测;
三、HLA-I抗原肽的识别:结合患者HLA基因分型及个体化新生突变肽库,利用多个HLA-I抗原呈递预测软件预测HLA与新生突变肽的结合亲和力,筛选高亲和力的HLA-I抗原肽,亲和力高的标准满足以下两个条件:1)平均亲和力小于等于50nM;2)结合亲和力的百分比rank平均得分小于2;
四、分析肿瘤患者及对照组外周血PBMC单细胞5’及V(D)J测序数据,识别癌种特异性TCR簇:执行V(D)J序列组装和成对克隆型检测,获取TCRαβ链相关信息,包括:CDR3区域、V基因、克隆型以及克隆频率;分析肿瘤患者与对照的TCR克隆型及克隆频率,识别肿瘤特异性TCR CDR3αβ序列;
五、细胞类型注释,识别CD8+T细胞对应的肿瘤特异性TCR序列:分析单细胞转录组数据,进行细胞类型注释,标注CD8+T细胞,根据Cell Barcode提取相应的TCR CDR3αβ序列;进而识别CD8+T细胞对应的肿瘤特异性TCR CDR3αβ簇;
六、免疫原性肿瘤新生抗原的识别:将预测的HLA-I抗原肽与肿瘤特异性TCR CDR3αβ序列组合配对,构建肽段与TCR相互作用预测模型,进而鉴定能被CD8+T细胞识别的免疫原性肿瘤新生抗原;
该步骤六的免疫原性肿瘤新生抗原的识别,包括核心技术为peptide-TCR相互作用预测模型的构建,包括如下步骤:
1)基准数据集构建:从VDJdb、IEDB数据库收集TCR-pHLA多聚体序列数据,利用序列相似的TCR具有相似的抗原特异性原理,使用高通量聚类软件对peptide-TCR对进行聚类分析,根据聚类类别选择80%数量类内序列作为正样本;模拟VDJ重组生成TCR的CDR3序列,生成与正样本等量的CDR3序列,并与正样本中肽配对构建负样本;同时按TCRα-与β-链划分训练集、测试集;
2)特征提取:
a)采用one-hot编码方法提取peptide-TCR对序列稀疏二值特征作为深度学习模型的输入;将CDR3序列和配对肽段拼接,通过增加通配字符X将长度不一的序列扩充至长度为29的序列,并采用one-hot编码方法将其数字转化为固定长度的矢量;
b)融合氨基酸物理化学属性与one-hot编码表征peptide-TCR对序列;用通配字符'X'填充所有peptide-TCR对序列至29mer后,将一个peptide-TCR对看作是一个2通道*29行*20列的图像,第一个通道采用一个one-hot编码特征,第二个通道采用20个氨基酸物理化学性质编码特征;
c)采用AAindex中氨基酸物理化学属性编码氨基酸,并利用主成分分析降维,从大量的氨基酸指标中得出少量的正交线性组合,保留原始集合中包含的大部分有用信息;对于每个氨基酸,使用向量PC1到PCk来表示其生化特征,k为8-20之间的整数,以便前k个主成分可以解释85%以上的数据变化;CDR3s和配对肽均用通配字符'X'填充至最大长度20,然后分别形成20行和k列的矩阵;为了有效地区分普通的PCP特征和用字符'X'填充的特征,分别在每个特征矩阵的右侧增加一个由0和1组成的列;因此,一个peptide-TCR对可视为一幅有2通道*20行*(k+1)列的图像,第一个通道存储CDR3序列产生的特征,第二个通道存储与该CDR3序列配对的肽段转化的特征;
3)特征选择:通过五次交叉验证,比较基于三种不同形式特征的模型预测精准度;根据交叉验证的结果来确定何种特征提取方法有益于模型性能的提升;再选择其中最优特性,用以构建高精度预测模型;
4)肽与TCR单链相互作用集成深度学习预测模型的构建:
a)以3)中生成的最优特征作为输入,分别训练全连接网络、卷积神经网络和残差网络三种深度学习架构:
i)设计一个具有五个隐藏层的FCN架构;输入层变量数量是由输入特征所决定,对于one-hot编码,输入层变量数为29*20*1=580,对于one-hot与物化属性PCP融合特征,输入层变量数为29*20*2=1160,而对于PCA特征,输入层变量数为20*(k+1)*2;此外,FCN模型包括256、512、256、128、64个变量的5个全连层和修正线性单元激活函数,输出层具有两个变量,并采用Softmax激活函数来实现分类;
ii)设计8层卷积神经网络LeNet-5;输入层与i)中输入层一致,卷积层C1有64个滤波器,滤波器大小为5,步长为1,随后是平均池化层S2,池化核大小为2,步长为2;另一个卷积层C3,有128个过滤器,过滤器大小为3,步幅为1;然后是平均池层S4,池核大小为2,步幅为2;后面连接分别含有512、256、128、64个变量的四层全连接层和ReLU激活函数;输出层含有两个变量和Softmax激活函数;
iii)采用经典深度学习模型ResNet-20,此模型仅使用identity shortcuts,由6*3+2堆叠的加权层、全局平均池化层和Softmax激活函数组成,ResNet-20中所有卷积层的滤波器大小都是3;
b)为了减轻FCN和LeNet-5模型潜在的过拟合,在模型最后一个隐含层和输出层添加dropout层,最后一个隐藏层中的变量以0.3的概率在训练过程中随机关闭;并在ResNet-20的全局平均池化层之后,添加注意力机制,采用Adam优化器自适应调整三个深度架构中梯度分量的大小;此外,将所有的peptide-CDR3对独立建模,并使用交叉熵损失计算每个peptide-CDR3对的损失loss(i)=-[yilog(pi)+(1-yi)log(1-pi)],其中yi是peptide-CDR3对i的类标,如果CDR3与配对肽段结合,则yi=1,否则,yi=0;而pi代表观察样本对预测为阳性样本的可能性;
c)使用召回、精度和准确性(ACC)评估预测器的性能:
其中:TP表示真阳性,即阳性样本peptide-CDR3对被正确识别的数量;TN为真阴性,阴性样本peptide-CDR3对被正确识别的数量;FP为假阳性,阴性样本被错误识别的数量;FN为假阴性,阳性样本被错误识别的数量;此外,受试者工作特征曲线的曲线下面积是衡量所提出模型的性能评价的重要指标;
d)通过前述步骤a)-c),可获得用以预测peptide-TCRα相互作用的深度学习预测模型pTCRα-FCN、pTCRα-LetNet、pTCRα-ResNet,以及可用于预测peptide-TCRβ相互作用的深度学习预测模型pTCRβ-FCN、pTCRβ-LetNet、pTCRβ-ResNet;随后平均每个深度学习模型的输出,将三个基分类器pTCRα-FCN、pTCRα-LetNet、pTCRα-ResNet生成peptide-TCRα集成深度学习预测模型,同时,将另外三个基分类器pTCRβ-FCN、pTCRβ-LetNet、pTCRβ-ResNet生成peptide-TCRβ集成深度学习预测模型;
5)肽与TCR配对链相互作用融合预测模型的构建:联合使用肽段与TCR单链相互作用预测模型peptide-TCRα与peptide-TCRβ,整合生成一个能预测肽段与配对TCR双链相互作用的融合模型DLpTCR,策略为:对于任一给定的peptide-CDR3αβ对,只有当CDR3α和CDR3β同时与该肽结合,才认定此TCRαβ可以识别该肽。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于哈尔滨工业大学,未经哈尔滨工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110443345.4/1.html,转载请声明来源钻瓜专利网。