[发明专利]基于结构网络模型的蛋白质功能位点预测方法有效
申请号: | 201810643576.8 | 申请日: | 2018-06-21 |
公开(公告)号: | CN108830043B | 公开(公告)日: | 2021-03-30 |
发明(设计)人: | 严文颖;沈百荣;杨洋 | 申请(专利权)人: | 苏州大学 |
主分类号: | G16B20/30 | 分类号: | G16B20/30;G16B40/00 |
代理公司: | 苏州市中南伟业知识产权代理事务所(普通合伙) 32257 | 代理人: | 杨慧林 |
地址: | 215131 *** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 结构 网络 模型 蛋白质 功能 预测 方法 | ||
1.一种基于结构网络模型的蛋白质功能位点预测方法,其特征在于,包括:
预测蛋白质结合位点;
输入关于演化、物理化学性质、结构以及动态性这四个方面衡量蛋白质中每个残基的性质;
基于蛋白质的三维结构对每个蛋白质构建其点加权的蛋白质结构网络NPSN;
定义并计算点加权的蛋白质结构网络的参数;
基于以上网络参数,利用随机森林模型预测蛋白质中的别构残基的概率;
其中,步骤“输入关于演化、物理化学性质、结构以及动态性这四个方面衡量蛋白质中每个残基的性质”中,具体的参数包括:保守分数、质量、疏水性、极性、相对溶剂可及表面积和柔性;其中,以上所有残基的性质都进行蛋白质内归一化;
其中,步骤“基于蛋白质的三维结构对每个蛋白质构建其点加权的蛋白质结构网络”具体包括:
据残基间环境依赖接触能确定网络中的边:NPSN的邻接矩阵中的元素AMij定义为:
其中eij表示残基i和残基j之间的环境依赖接触能,其定义为
eij=-ln(NijN00Ci0Cj0/Ni0Nj0CijC00)
其中,Nij、Ni0、Nj0和N00表示结构中的接触数目,Cij、Ci0,、Cj0和C00为对应参考状态下的参数;
据残基的特性定义网络中节点的权重:NPSN中节点i的权重wi定义为:
wi=ji,mi,hi,pi,1-Si,or fi
其中ji、mi,、hi、pi、si和fi代表归一化后的JSD保守性分数、质量、疏水性、极性SA和柔性;
这样,每个蛋白质将构建6个分别基于残基不同特性的NPSN;
步骤“定义并计算点加权的蛋白质结构网络的参数”具体包括:
若NPSN中有n个节点残基,残基i具有wi为权重的加权网络参数为:
加权度
其中,wi为残基i的权重;
加权介数
其中,是节点i与节点j之间并且通过节点v的最短路径的条数;节点i与节点j之间的最短路径的条数;
加权中心度
其中,dij是网络中节点i和j之间的距离;
综上,每个蛋白质在基于6种残基的性质构建了6个NPSN,而对于每个NPSN中的残基都有3个加权参数,因此每个残基共有18个网络参数;
其中,步骤“基于以上网络参数,利用随机森林模型预测蛋白质中的别构残基的概率”具体包括:
1、随机选取18个网络参数中m个参数以进行随机森林树的构建;其中,m=3,4,5,…,18;
2、对数据集随机分成十组,每次选择其中的一组为测试集,剩余九组为训练集;
3、对训练集进行欠抽样以构建新的训练集,然后对此新的训练集的残基的m个参数构建随机森林树;
4、对2和3步骤重复100次,并以这100次预测的平均预测效果作为最终m个参数的预测效果;
5、预测效果评价指标:敏感性SEN、特异性SPE、精确度ACC、F1值、Matthews相关系数MCC
通过遍历这18个网络参数遍历,最终得到13个参数K1-s、B1-s、C1-s、Km、Cm、Kh、Bh、Ch、Kp、Bp、Cp、Bf和Kj构建的模型具有最优的效果。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于苏州大学,未经苏州大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810643576.8/1.html,转载请声明来源钻瓜专利网。