[发明专利]一种基于多元数据预测DNA突变影响蛋白互作的预测方法有效
申请号: | 201611255461.9 | 申请日: | 2016-12-30 |
公开(公告)号: | CN106778065B | 公开(公告)日: | 2019-02-01 |
发明(设计)人: | 赵兴明;何峰 | 申请(专利权)人: | 同济大学 |
主分类号: | G16B20/00 | 分类号: | G16B20/00 |
代理公司: | 上海科律专利代理事务所(特殊普通合伙) 31290 | 代理人: | 叶凤 |
地址: | 200092 *** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 一种基于多元数据预测DNA突变影响蛋白互作(Protein‑Protein Interaction,PPI)的预测方法。本方法以DNA上SNP(Single Nucleotide Polymorphisms,SNP)是否对蛋白互作产生影响为研究对象,使用蛋白质的结构、功能和氨基酸序列相关的七类特征,采用支持向量机(Support Vector Machine,SVM)和集成学习算法作为分类器,就SNP是否破坏蛋白互作进行预测。同时,对蛋白之间是否存在相互作用以及SNP引起的氨基酸变异是否发生在蛋白互作面(PPI interface)上进行判断。 | ||
搜索关键词: | 一种 基于 多元 数据 预测 dna 突变 影响 蛋白 方法 | ||
【主权项】:
1.一种基于多元数据预测DNA突变影响蛋白互作的预测方法,其特征在于,包括:步骤1、整理HPRD、BioGrid、IntAct、MINT和DIP五个蛋白互作数据库包含的所有非冗余蛋白互作对,用来判断蛋白之间是否存在蛋白互作;步骤2、结合NCBI提供的dbSNP数据,利用软件Polyphen2、SIFT、MutationAsseso计算出SNP引起蛋白序列上氨基酸突变数据库,做记录,用来判定SNP是否引起蛋白上氨基酸突变;步骤3、结合PDB数据库中提供的蛋白互作结构信息,整理出蛋白互作面信息,应用实施步骤2中数据库,判断SNP引起的氨基酸突变是否发生在蛋白互作面上;步骤4、应用实施步骤1‑3中SNP引起氨基酸突变且突变发生在蛋白互作面上的SNP与蛋白互作对作为样本,利用Mechismo提供的蛋白互作面上氨基酸变异概率矩阵,结合公式(1),计算SNP引起氨基酸突变是否破坏蛋白互作Labi=ajm‑ajn (1)其中Labi表示第i个样本,ajm、ajn分别表示变异后与变异前的氨基酸对出现的概率,当Labi大于等于0时,表示在第i个样本中,SNP引起的氨基酸突变没有破坏蛋白互作,为负样本;而当Labi小于0时,表示SNP引起的氨基酸突变破坏了蛋白互作,为正样本;此处只用来计算样本标签;步骤5、根据实施步骤4中的样本,以每个样本氨基酸变异点为中心,在蛋白互作面上取长度为15的氨基酸序列窗口,提取该窗口蛋白质结构、功能和序列相关的七个特征,具体实施如下:步骤(51)、对窗口两条序列,按照窗口大小为2进行窗口滑动提取氨基酸对,统计氨基酸对频率,得相应特征,每个特征即为相应氨基酸对频率;步骤(52)、基于20种氨基酸,提取每种氨基酸的理化性质,提取每个样本的蛋白互作面窗口相应理化属性值构建特征向量,又得相应特征;步骤(53)、基于每个样本PDB文件,利用PSAIA软件计算蛋白互作面窗口序列的相应数量个单体及化合物状态的蛋白结构特征,相对信息利用公式(2)进行计算:ASARC=(ASAM‑ASAC)/ASAMDIRC=(DIC‑DIM)/DICPIRC=(PIM‑PIC)/PIM (2)M:Unbound C:Bound步骤(54)、基于每一个样本的蛋白互作面窗口序列信息,结合NCBI提供的psi‑blastp算法以及非冗余序列数据库,分别计算窗口中两条氨基酸序列的序列保守性PSSM,将矩阵所有元素按列依次放入向量中,共得相应个特征;步骤(55)、对每一个样本,从相应PDB文件中提取蛋白互作面窗口序列中每一个氨基酸温度信息,共得相应个特征;步骤(56)、基于样本中涉及到的两个蛋白质,利用公式(3)求出PPI比
其中N(Pi)表示取与蛋白质Pi有相互作用关系的蛋白质集合;步骤(57)、基于样本中SNP引起的突变氨基酸,提取打分矩阵BLOSUM62中的对应该氨基酸变异前后的值,是一个一维特征;步骤6、基于实施步骤(54)‑步骤(55)中得出的样本和特征,以SVM和贪婪算法思想为基础进行特征选择,过程如下:步骤(61),首先对所有的特征利用公式(4)进行归一化:
其中,
表示第j类的第i个特征,
表示这个特征在所有样本上面的平均值,
表示这个特征的标准差;步骤(62),将两个一维特征PPI Ratio和BLOSUM62放入另外五类特征中,即对另五类特征分别追加两维特征;步骤(63),对这五类特征用Signal‑to‑Noise Ratio来确定每一类的初始特征,如公式(5):
其中,
和
分别表示第j类的第i个特征的正样本和负样本的均值,同理,
和
分别表示第j类的第i个特征的正样本和负样本的标准差,选取SNRji值最大的特征作为第j类的初始特征;步骤(64),以SVM算法为基础结合贪婪算法思想,在确定每一类特征初始特征基础上,结合十折交叉验证,依次遍历剩余特征,与初始特征构成二维特征向量,计算平均F1值,并提取当平均F1达到最大值时的特征组合;重复上述过程依次加入特征,直至测试集上平均F1不再增大;至此,对这一类特征来说,特征选择完成,得到最优的特征组合、由这些特征训练的SVM模型与最优F1;F1值计算如公式(6)所示:
其中TP、FP、TN、FN分别表示真阳、假阳、真阴、假阴的样本数量;步骤(65),基于实施步骤5中得到的五类特征的特征选择结果、最大F1值F1k,k∈{1,2,3,4,5}和SVM模型svmk,k∈{1,2,3,4,5},采用多数表决结合策略,构建集成分类器如公式(7)所示,预测SNP引起的氨基酸突变是否破坏蛋白互作:
其中F1k表示五类特征中每一类特征的最优F1值,svmk表示的是实施步骤5中得到的每一类特征的SVM模型,
表示的是PPIj基于SNPi作用在第k类特征上取得的特征。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于同济大学,未经同济大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201611255461.9/,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置