[发明专利]基于后处理学习的G蛋白偶联受体‑药物交互作用预测方法有效
申请号: | 201410453917.7 | 申请日: | 2014-09-05 |
公开(公告)号: | CN104239751B | 公开(公告)日: | 2017-11-14 |
发明(设计)人: | 於东军;胡俊;陈婕;李阳;沈红斌;杨静宇 | 申请(专利权)人: | 南京理工大学 |
主分类号: | G06F19/18 | 分类号: | G06F19/18 |
代理公司: | 南京理工大学专利中心32203 | 代理人: | 朱显国,王培松 |
地址: | 210000 *** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明提供一种基于后处理学习的G蛋白偶联受体‑药物交互作用预测方法,包括基于训练数据集合中所有具有交互作用的G蛋白偶联受体‑药物信息,构造药物关联矩阵DAM;将训练数据集合中所有G蛋白偶联受体‑药物信息进行多视角特征表示,形成训练样本集合,然后使用随机森林算法将训练样本集合训练成G蛋白偶联受体‑药物交互作用RF预测模型;对于每对待预测交互作用的G蛋白偶联受体‑药物信息进行多视角特征表示,形成待预测样本集合;然后利用RF预测模型进行存在交互作用的概率预测,最终输出预测概率;最后根据输出概率进行后处理学习,最终直接得出该G蛋白偶联受体‑药物信息是否存在交互作用的判断。 | ||
搜索关键词: | 基于 处理 学习 蛋白 受体 药物 交互作用 预测 方法 | ||
【主权项】:
一种基于后处理学习的G蛋白偶联受体‑药物交互作用预测方法,其特征在于,包括以下步骤:步骤1:基于训练数据集合中所有具有交互作用的G蛋白偶联受体‑药物信息,构造一个描述不同药物之间可绑定同一个G蛋白偶联受体的概率的药物关联矩阵DAM;步骤2:基于输入的G蛋白偶联受体序列信息与药物分子结构信息,进行多视角特征抽取与特征组合,即分别使用PSI‑BLAST与PsePSSM算法抽取G蛋白偶联受体序列的进化信息视角特征,使用OpenBabel与Wavelet工具从药物分子结构信息中解析出药物指纹信息视角特征,然后利用特征串行组合方式将蛋白质序列中的每个氨基酸残基进行多视角特征表示,具体步骤为:A.从进化信息视角抽取G蛋白偶联受体的特征对于一个含有l个氨基酸残基的G蛋白偶联受体序列P,首先通过PSI‑BLAST算法计算获取其位置特异性得分矩阵PSSM,该PSSM矩阵是一个l行20列的矩阵,从而将G蛋白偶联受体一级结构信息转换为矩阵形式,表达如下:其中:A、R、...、V表示20种常见氨基酸残基,oi,j表示蛋白质第i个氨基酸残基在进化过程中突变成20种常见氨基酸残基中的第j种氨基酸残基的可能性;然后对进行归一化处理,使用下式的sigmoid函数对中的每一个值进行逐行标准化处理:f(x)=11+exp(-x)---(2)]]>标准化后的PSSM,表达如下:再次,对于标准化后的PSSM矩阵,使用PsePSSM算法将不等长的PSSM矩阵转化为能够表达G蛋白偶联受体进化信息的等长特征向量,具体方法如下:(1)对Ppssm的每一列求均值,得到一个20维的特征向量:CPSSM=(p1,p2,…,pj,…,p20) (4)其中(2)在Ppssm深入挖掘G蛋白偶联受体进化信息中不同层次的序列排序信息λg,这里的g表示抽取g层的序列排序信息,表达如下:λk=(λ1k,λ2k,...,λjk,...,λ20k)---(5)]]>其中K表示可以挖掘序列排序信息的最大层次,至此可获得K个不同层次的序列排序信息;(3)最后将CPSSM与K个不同层次的序列排序信息串行组合起来,得到G蛋白偶联受体的PsePSSM特征向量PsePSSMK:PsePSSMK=(CPSSM,λ1,λ2,λK)T (6)B.从药物结构信息视角抽取药物分子结构的指纹信息对于给出的药物,根据药物ID从KEGG数据库获得含有对应分子结构信息的MOL文件,然后通过OpenBabel工具将MOL格式文件转换成FP2指纹格式的信息,其中,FP2为OpenBabel的一个参数设置,FP2指纹格式是一个256位的16进制字符串;然后,使用Wavelet工具对药物的指纹信息进行去噪,其中Wavelet工具选择Haar小波;最终得到一个描述药物分子结构的128维的药物指纹特征向量fingerprint;C.最后将上述步骤得到的特征向量PsePSSMK和特征向量fingerprint串行组合起来,至此可得到G蛋白偶联受体‑药物信息的特征向量,其维数为(20+K×20)+128;步骤3:根据步骤2的方法将训练数据集合中所有G蛋白偶联受体‑药物信息进行多视角特征表示,形成训练样本集合,其中,所有具有交互作用的G蛋白偶联受体‑药物为正样本集,其他为负样本集;然后使用随机森林算法(Random Forest)将训练样本集合训练成一个G蛋白偶联受体‑药物交互作用RF预测模型;步骤4:对于每对待预测交互作用的G蛋白偶联受体‑药物信息,通过步骤2得到此G蛋白偶联受体‑药物的多视角特征表示,形成待预测样本集合;然后使用步骤3中的G蛋白偶联受体‑药物交互作用RF预测模型进行存在交互作用的概率预测,最终输出预测概率;以及步骤5:对于步骤4中待预测的G蛋白偶联受体‑药物信息,根据步骤4中的输出概率进行后处理学习,最终直接得出该G蛋白偶联受体‑药物信息是否存在交互作用的判断。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京理工大学,未经南京理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201410453917.7/,转载请声明来源钻瓜专利网。
- 上一篇:发动机协同设计集成应用系统
- 下一篇:报警系统的防区旁路系统
- 同类专利
- 专利分类
G06 计算;推算;计数
G06F 电数字数据处理
G06F19-00 专门适用于特定应用的数字计算或数据处理的设备或方法
G06F19-10 .生物信息学,即计算分子生物学中的遗传或蛋白质相关的数据处理方法或系统
G06F19-12 ..用于系统生物学的建模或仿真,例如:概率模型或动态模型,遗传基因管理网络,蛋白质交互作用网络或新陈代谢作用网络
G06F19-14 ..用于发展或进化的,例如:进化的保存区域决定或进化树结构
G06F19-16 ..用于分子结构的,例如:结构排序,结构或功能关系,蛋白质折叠,结构域拓扑,用结构数据的药靶,涉及二维或三维结构的
G06F19-18 ..用于功能性基因组学或蛋白质组学的,例如:基因型–表型关联,不均衡连接,种群遗传学,结合位置鉴定,变异发生,基因型或染色体组的注释,蛋白质相互作用或蛋白质核酸的相互作用
G06F 电数字数据处理
G06F19-00 专门适用于特定应用的数字计算或数据处理的设备或方法
G06F19-10 .生物信息学,即计算分子生物学中的遗传或蛋白质相关的数据处理方法或系统
G06F19-12 ..用于系统生物学的建模或仿真,例如:概率模型或动态模型,遗传基因管理网络,蛋白质交互作用网络或新陈代谢作用网络
G06F19-14 ..用于发展或进化的,例如:进化的保存区域决定或进化树结构
G06F19-16 ..用于分子结构的,例如:结构排序,结构或功能关系,蛋白质折叠,结构域拓扑,用结构数据的药靶,涉及二维或三维结构的
G06F19-18 ..用于功能性基因组学或蛋白质组学的,例如:基因型–表型关联,不均衡连接,种群遗传学,结合位置鉴定,变异发生,基因型或染色体组的注释,蛋白质相互作用或蛋白质核酸的相互作用