[发明专利]基于回归森林模型的蛋白质序列二硫键连接模式的预测方法有效
申请号: | 201410303084.6 | 申请日: | 2014-06-27 |
公开(公告)号: | CN104063632B | 公开(公告)日: | 2017-09-01 |
发明(设计)人: | 於东军;李阳;胡俊;沈红斌;杨静宇 | 申请(专利权)人: | 南京理工大学 |
主分类号: | G06F19/16 | 分类号: | G06F19/16 |
代理公司: | 南京理工大学专利中心32203 | 代理人: | 朱显国 |
地址: | 210000 *** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开一种基于回归森林模型的蛋白质序列二硫键连接模式的预测方法,包括以下步骤步骤1、通过多视角特征提取和特征组合,得到蛋白质序列中每个半胱氨酸残基对的特征向量;步骤2、对于待预测的蛋白质序列信息和训练数据集合,生成待预测的蛋白质序列信息和训练数据集合中所有半胱氨酸残基对的特征向量,从而分别构成训练样本集合与待预测样本集合;步骤3、采用随机森林算法学习二硫键样本在特征空间中的分布规律,生成随机森林回归模型;步骤4、利用随机森林回归模型对待预测样本集合的特征向量进行预测,得到每个半胱氨酸残基对形成二硫键的倾向值,得分最高的二硫键连接模式即为最终预测得到的蛋白质序列中的二硫键连接模式。 | ||
搜索关键词: | 基于 回归 森林 模型 蛋白质 序列 二硫键 连接 模式 预测 方法 | ||
【主权项】:
一种基于回归森林模型的蛋白质序列二硫键连接模式的预测方法,其特征在于,包括以下步骤:步骤1、特征提取,即基于输入的蛋白质序列信息,进行多视角特征提取和特征组合,得到蛋白质序列中每个半胱氨酸残基对最终的特征向量;步骤2、对于待预测的蛋白质序列信息和训练数据集合,采用上述步骤1的方法,生成待预测的蛋白质序列信息和训练数据集合中所有半胱氨酸残基对的特征向量,从而分别构成训练样本集合与待预测样本集合;步骤3、特征学习采用随机森林算法学习二硫键样本在特征空间中的分布规律,生成随机森林回归模型,其中,模型的决策树个数采用大于等于300的整数,每次分裂时随机选择的特征个数由前述步骤1所得的特征向量的维度决定;步骤4、二硫键连接模式预测利用前述步骤3的随机森林回归模型对待预测样本集合中的特征向量进行预测,得到每个半胱氨酸残基对形成二硫键的倾向值,记为ppcp;令q为所有可能的二硫键连接模式的数量,则第i个二硫键连接模式的得分Si用下述公式得到:Si=Σj=1Bppcpj,1≤i≤q]]>其中B代表第i个二硫键连接模式中二硫键的个数,ppcpj是第i个二硫键连接模式中第j个半胱氨酸残基对的倾向值:如果第i个二硫键的连接模式的得分最高,则该第i个模式就是最终预测得到的结果:i*=argmax1≤i≤qSi]]>即:该得分最高的二硫键连接模式i*为最终预测得到的蛋白质序列中的二硫键连接模式;其中,所述步骤1中特征提取的具体实现包括以下步骤:分别使用PSI‑BLAST算法抽取蛋白质序列的进化信息,利用PSIPRED算法抽取蛋白质序列的二级结构信息,再利用滑动窗口与特征串行组合方式从前述进化信息和二级结构信息中提取每个半胱氨酸残基对的多视角特征;然后计算蛋白质序列中半胱氨酸残基对在蛋白质序列中的距离特征信息,利用PSI‑BLAST算法抽取蛋白质序列中每个半胱氨酸残基对的协变异信息,利用MODELLER同源建模软件获取半胱氨酸残基对的三维结构距离信息;最后将上述从进化信息和二级结构信息中提取每个半胱氨酸残基对的多视角特征与前述距离特征信息、协变异信息、三维结构距离信息进行特征组合,得到蛋白质序列中每个半胱氨酸残基对最终的特征向量;具体地,其中的蛋白质序列的进化信息即位置特异性得分矩阵、蛋白质序列的二级结构信息、半胱氨酸对在序列中的距离特征、半胱氨酸残基对的协变异信息以及半胱氨酸残基对的三维结构距离信息,其具体的提取和组合方式如下:A:蛋白质序列的进化信息,即位置特异性得分矩阵对于某一给定的含有l个氨基酸残基的特定蛋白质P,其原始位置特异性得分矩阵PSSM首先由PSI‑BLAST程序用默认的E‑value参数从Swiss‑Prot数据库经过三次迭代得到的,该矩阵为一个n行20列矩阵,表达如下:其中:A、R、...、V表示20种常见氨基酸残基,Oi,j表示蛋白质的第i个氨基酸残基在进化过程中突变成20种常见氨基酸残基中的第j种氨基酸残基的可能性;然后,对原始位置特异性得分矩阵中的每一个元素x,利用下述函数公式(2)归一化f(x)=11+exp(-x)---(2)]]>归一化后的位置特异性得分矩阵,表达如下:再次,对于蛋白质序列P中的一个半胱氨酸Ci,i为半胱氨酸残基在序列中的位置,以位置特异性得分矩阵中的第i行为中心,使用一个宽度为W的窗口,该窗口内所有元素构成第i个氨基酸残基的PSSM特征矩阵,表达如下:AR...Vpi-w-12,1pi-w-12,2...pi-w-12,20pi-w-12+1,1pi-w-12+1,2...pi-w-12+1,20............pi,1pi,2...pi,20............pi+w-12,1pi+w-12,2...pi+w-12,20---(4)]]>最后,将上述特征矩阵(4)按行优先的组合方式形成维数为20×W的特征向量,取滑动窗口大小为13,即W=13,则半胱氨酸残基Ci的遗传信息可以用下面特征向量表示:pssmiP=(pi,1,pi,2,...,pi,20W)T---(5)]]>对于一个半胱氨酸残基对,分别计算两个半胱氨酸残基的遗传信息特征向量即前述表达5所示的特征向量,并串行组合,即可得到一个半胱氨酸残基对的遗传信息特征向量;B、蛋白质序列的二级结构特征对于一个含有l个氨基酸残基的蛋白质P,首先通过PSIPRED算法生成蛋白质序列P的二级结构矩阵,该矩阵大小为l×3,表达如下:其中,C、H、E表示蛋白质的三种二级结构即coil、helix、strand,Si,1表示蛋白质P中半胱氨酸残基Ci的二级结构是coil的概率,Si,2表示蛋白质中半胱氨酸残基Ci的二级结构是helix的概率,Si,3表示蛋白质中半胱氨酸残基Ci的二级结构是strand的概率;然后,使用上述同样的宽度为W的滑动窗口与按行优先的组合方式,一个半胱氨酸残基可以由一个维数为3×W的特征向量表示:pssiP=(si,1,si,2,...,si,3W)T---(7)]]>对于一个半胱氨酸残基对,分别计算两个半胱氨酸残基的二级结构信息特征向量即前述表达7所示的特征向量,并串行组合,即可得到一个半胱氨酸残基对的二级结构信息特征向量;C、半胱氨酸对在序列中的距离特征采用下述公式来表示一个半胱氨酸对的距离特征:DOC(i,j)=|i‑j|其中,i和j分别是两个半胱氨酸残基在蛋白质序列中的位置;然后,再使用DOClog作为归一化方式,得到距离特征的最终表达:DOClog=11+log(|i-j|)]]>D、协变异特征如果半胱氨酸残基对存在某种较强的联系,那么这个半胱氨酸残基对就可能独立于进化过程,采用打分模式,对每个半胱氨酸残基对进行打分,这样每个半胱氨酸残基对都获得一个介于[0,1]的得分;E、半胱氨酸残基对三维结构距离特征使用MODELLER同源建模软件从蛋白质序列得到该蛋白质的三维结构;然后再利用得到的结构中的坐标值计算出两个半胱氨酸的距离;半胱氨酸的间距越小,它们形成一个二硫键的可能性就越大;最终,每个半胱氨酸残基对的特征向量将由上面提到的五个类型的特征组成,是520维的位置特异性得分矩阵PSSM、78维的二级结构特征PSS、1维的距离特征DOC、1维的协变异特征CM、1维的三维结构距离特征PDTCR,最终得到的特征向量,其维度为520+78+1+1+1=601维。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京理工大学,未经南京理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201410303084.6/,转载请声明来源钻瓜专利网。
- 同类专利
- 专利分类
G06 计算;推算;计数
G06F 电数字数据处理
G06F19-00 专门适用于特定应用的数字计算或数据处理的设备或方法
G06F19-10 .生物信息学,即计算分子生物学中的遗传或蛋白质相关的数据处理方法或系统
G06F19-12 ..用于系统生物学的建模或仿真,例如:概率模型或动态模型,遗传基因管理网络,蛋白质交互作用网络或新陈代谢作用网络
G06F19-14 ..用于发展或进化的,例如:进化的保存区域决定或进化树结构
G06F19-16 ..用于分子结构的,例如:结构排序,结构或功能关系,蛋白质折叠,结构域拓扑,用结构数据的药靶,涉及二维或三维结构的
G06F19-18 ..用于功能性基因组学或蛋白质组学的,例如:基因型–表型关联,不均衡连接,种群遗传学,结合位置鉴定,变异发生,基因型或染色体组的注释,蛋白质相互作用或蛋白质核酸的相互作用
G06F 电数字数据处理
G06F19-00 专门适用于特定应用的数字计算或数据处理的设备或方法
G06F19-10 .生物信息学,即计算分子生物学中的遗传或蛋白质相关的数据处理方法或系统
G06F19-12 ..用于系统生物学的建模或仿真,例如:概率模型或动态模型,遗传基因管理网络,蛋白质交互作用网络或新陈代谢作用网络
G06F19-14 ..用于发展或进化的,例如:进化的保存区域决定或进化树结构
G06F19-16 ..用于分子结构的,例如:结构排序,结构或功能关系,蛋白质折叠,结构域拓扑,用结构数据的药靶,涉及二维或三维结构的
G06F19-18 ..用于功能性基因组学或蛋白质组学的,例如:基因型–表型关联,不均衡连接,种群遗传学,结合位置鉴定,变异发生,基因型或染色体组的注释,蛋白质相互作用或蛋白质核酸的相互作用