[发明专利]一种基于多元数据预测DNA突变影响蛋白互作的预测方法有效

专利信息
申请号: 201611255461.9 申请日: 2016-12-30
公开(公告)号: CN106778065B 公开(公告)日: 2019-02-01
发明(设计)人: 赵兴明;何峰 申请(专利权)人: 同济大学
主分类号: G16B20/00 分类号: G16B20/00
代理公司: 上海科律专利代理事务所(特殊普通合伙) 31290 代理人: 叶凤
地址: 200092 *** 国省代码: 上海;31
权利要求书: 查看更多 说明书: 查看更多
摘要: 一种基于多元数据预测DNA突变影响蛋白互作(Protein‑Protein Interaction,PPI)的预测方法。本方法以DNA上SNP(Single Nucleotide Polymorphisms,SNP)是否对蛋白互作产生影响为研究对象,使用蛋白质的结构、功能和氨基酸序列相关的七类特征,采用支持向量机(Support Vector Machine,SVM)和集成学习算法作为分类器,就SNP是否破坏蛋白互作进行预测。同时,对蛋白之间是否存在相互作用以及SNP引起的氨基酸变异是否发生在蛋白互作面(PPI interface)上进行判断。
搜索关键词: 一种 基于 多元 数据 预测 dna 突变 影响 蛋白 方法
【主权项】:
1.一种基于多元数据预测DNA突变影响蛋白互作的预测方法,其特征在于,包括:步骤1、整理HPRD、BioGrid、IntAct、MINT和DIP五个蛋白互作数据库包含的所有非冗余蛋白互作对,用来判断蛋白之间是否存在蛋白互作;步骤2、结合NCBI提供的dbSNP数据,利用软件Polyphen2、SIFT、MutationAsseso计算出SNP引起蛋白序列上氨基酸突变数据库,做记录,用来判定SNP是否引起蛋白上氨基酸突变;步骤3、结合PDB数据库中提供的蛋白互作结构信息,整理出蛋白互作面信息,应用实施步骤2中数据库,判断SNP引起的氨基酸突变是否发生在蛋白互作面上;步骤4、应用实施步骤1‑3中SNP引起氨基酸突变且突变发生在蛋白互作面上的SNP与蛋白互作对作为样本,利用Mechismo提供的蛋白互作面上氨基酸变异概率矩阵,结合公式(1),计算SNP引起氨基酸突变是否破坏蛋白互作Labi=ajm‑ajn  (1)其中Labi表示第i个样本,ajm、ajn分别表示变异后与变异前的氨基酸对出现的概率,当Labi大于等于0时,表示在第i个样本中,SNP引起的氨基酸突变没有破坏蛋白互作,为负样本;而当Labi小于0时,表示SNP引起的氨基酸突变破坏了蛋白互作,为正样本;此处只用来计算样本标签;步骤5、根据实施步骤4中的样本,以每个样本氨基酸变异点为中心,在蛋白互作面上取长度为15的氨基酸序列窗口,提取该窗口蛋白质结构、功能和序列相关的七个特征,具体实施如下:步骤(51)、对窗口两条序列,按照窗口大小为2进行窗口滑动提取氨基酸对,统计氨基酸对频率,得相应特征,每个特征即为相应氨基酸对频率;步骤(52)、基于20种氨基酸,提取每种氨基酸的理化性质,提取每个样本的蛋白互作面窗口相应理化属性值构建特征向量,又得相应特征;步骤(53)、基于每个样本PDB文件,利用PSAIA软件计算蛋白互作面窗口序列的相应数量个单体及化合物状态的蛋白结构特征,相对信息利用公式(2)进行计算:ASARC=(ASAM‑ASAC)/ASAMDIRC=(DIC‑DIM)/DICPIRC=(PIM‑PIC)/PIM  (2)M:Unbound C:Bound步骤(54)、基于每一个样本的蛋白互作面窗口序列信息,结合NCBI提供的psi‑blastp算法以及非冗余序列数据库,分别计算窗口中两条氨基酸序列的序列保守性PSSM,将矩阵所有元素按列依次放入向量中,共得相应个特征;步骤(55)、对每一个样本,从相应PDB文件中提取蛋白互作面窗口序列中每一个氨基酸温度信息,共得相应个特征;步骤(56)、基于样本中涉及到的两个蛋白质,利用公式(3)求出PPI比其中N(Pi)表示取与蛋白质Pi有相互作用关系的蛋白质集合;步骤(57)、基于样本中SNP引起的突变氨基酸,提取打分矩阵BLOSUM62中的对应该氨基酸变异前后的值,是一个一维特征;步骤6、基于实施步骤(54)‑步骤(55)中得出的样本和特征,以SVM和贪婪算法思想为基础进行特征选择,过程如下:步骤(61),首先对所有的特征利用公式(4)进行归一化:其中,表示第j类的第i个特征,表示这个特征在所有样本上面的平均值,表示这个特征的标准差;步骤(62),将两个一维特征PPI Ratio和BLOSUM62放入另外五类特征中,即对另五类特征分别追加两维特征;步骤(63),对这五类特征用Signal‑to‑Noise Ratio来确定每一类的初始特征,如公式(5):其中,分别表示第j类的第i个特征的正样本和负样本的均值,同理,分别表示第j类的第i个特征的正样本和负样本的标准差,选取SNRji值最大的特征作为第j类的初始特征;步骤(64),以SVM算法为基础结合贪婪算法思想,在确定每一类特征初始特征基础上,结合十折交叉验证,依次遍历剩余特征,与初始特征构成二维特征向量,计算平均F1值,并提取当平均F1达到最大值时的特征组合;重复上述过程依次加入特征,直至测试集上平均F1不再增大;至此,对这一类特征来说,特征选择完成,得到最优的特征组合、由这些特征训练的SVM模型与最优F1;F1值计算如公式(6)所示:其中TP、FP、TN、FN分别表示真阳、假阳、真阴、假阴的样本数量;步骤(65),基于实施步骤5中得到的五类特征的特征选择结果、最大F1值F1k,k∈{1,2,3,4,5}和SVM模型svmk,k∈{1,2,3,4,5},采用多数表决结合策略,构建集成分类器如公式(7)所示,预测SNP引起的氨基酸突变是否破坏蛋白互作:其中F1k表示五类特征中每一类特征的最优F1值,svmk表示的是实施步骤5中得到的每一类特征的SVM模型,表示的是PPIj基于SNPi作用在第k类特征上取得的特征。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于同济大学,未经同济大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201611255461.9/,转载请声明来源钻瓜专利网。

同类专利
专利分类
×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code