[发明专利]基于图神经网络表征的蛋白质与核酸结合位点预测方法在审
申请号: | 202110037110.5 | 申请日: | 2021-01-12 |
公开(公告)号: | CN114765063A | 公开(公告)日: | 2022-07-19 |
发明(设计)人: | 夏莹;沈红斌;潘小勇;夏春秋 | 申请(专利权)人: | 上海交通大学 |
主分类号: | G16B20/30 | 分类号: | G16B20/30 |
代理公司: | 上海交达专利事务所 31201 | 代理人: | 王毓理;王锡麟 |
地址: | 200240 *** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 神经网络 表征 蛋白质 核酸 结合 预测 方法 | ||
1.一种基于图神经网络表征的蛋白质与核酸结合位点预测方法,其特征在于,通过构建蛋白质数据集,经样本融合处理后提取其中蛋白质中每个残基的位置信息及其结构上下文,并据此构建残基结构上下文的图表示,通过层次图神经网络对待预测的蛋白质的图表示进行预测,得到每个残基与DNA/RNA结合的概率,实现蛋白质与核酸结合位点预测;
所述的蛋白质数据集,即与DNA/RNA发生相互作用的蛋白质数据集,其具体通过以下方式构建得到:从BioLip中提取蛋白质与核酸的复合物集合和蛋白质与核酸结合位点的标签,并根据复合物中碱基的类别提取与DNA结合的蛋白质集合、与RNA结合的蛋白质集合;
所述的层次图神经网络根据训练集样本,有监督地从残基结构上下文的图表示中学习结合位点的局部几何和特征的局部模式,具体包括:图网络编码单元、基于门循环单元的K层堆叠图神经元块、基于多层感知机的二分类器,其中:图网络编码单元依次进行边编码、节点编码和图编码;基于门循环单元的K层堆叠图神经元块依次进行边更新、节点更新和图更新;基于多层感知机的二分类器根据更新得到的图特征{uk|k=1,...,K}预测出残基与DNA/RNA的结合概率;
所述的蛋白质与核酸结合位点预测,通过层次图神经网络预测得到的每个残基与DNA/RNA结合的概率,并与阈值T比较得到结合残基和非结合残基。
2.根据权利要求1所述的预测方法,其特征是,所述的样本融合处理是指:针对数据集正负样本不平衡问题对训练集做数据增强,将序列和结构相似度高的蛋白质簇的结合位点的标签进行融合,提升训练集的正样本比例,具体包括:
步骤①对训练集中的蛋白质进行聚类:应用bl2seq和TM-align计算两个蛋白质的序列相似度和结构相似度;将序列相似度大于0.8并且TM-score大于0.5的蛋白质聚为一簇;将同一簇蛋白质的真实结合位点的标注迁移到该簇中具有最多残基的蛋白质上;去除训练集中的序列相似性大于30%的蛋白质;
步骤②使用CD-HIT,去除测试集中与训练集序列相似性大于30%的蛋白质,并保证测试集自身的序列相似性低于30%。
3.根据权利要求1所述的预测方法,其特征是,所述的残基的位置和特征信息包括:原子的特征、二级结构信息、键和扭转角信息、可溶性、进化保守性信息,其具体通过以下方式提取得到:
步骤1、对于每个残基,其位置定义为该残基的质心的坐标;
步骤2、对于每个残基,提取属于该残基的原子的特征,随后对每种原子特征将该残基的所有原子的该特征进行平均得到残基的原子特征矩阵,大小为L×7,L表示蛋白质的残基数量;
步骤3、对于具有L个残基的蛋白质,使用DSSP根据蛋白质结构计算尺寸为L×14的二级结构特征矩阵;
步骤4、对于具有L个残基的蛋白质,使用PSI-BLAST搜索NCBI的NR数据库,计算尺寸为L×20的进化保守性打分矩阵PSSM;
步骤5、对于具有L个残基的蛋白质,使用HHblits搜索uniclust30数据库,计算另一个尺寸为L×30的进化保守性矩阵HMM;
步骤6、拼接原子特征矩阵、二级结构特征矩阵、进化保守性打分矩阵PSSM和进化保守性矩阵HMM,对具有L个残基的蛋白质得到L×71的特征矩阵。
4.根据权利要求1所述的预测方法,其特征是,所述的结构上下文,通过对蛋白质的每个残基,根据蛋白质中残基的位置信息,使用基于结构的滑动球提取得到,具体为:根据三级结构中残基的位置坐标,一个沿着多肽链的滑动球被用来提取每个残基的结构上下文,具体来说,对于一个目标残基,以该残基为球心,rg为半径画一个球,该球体内所有的残基和它们之间的位置关系共同构成了残基的结构上下文。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海交通大学,未经上海交通大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110037110.5/1.html,转载请声明来源钻瓜专利网。