[发明专利]基于复杂度和分子指纹的药物-靶标结合预测方法有效
申请号: | 201210439995.2 | 申请日: | 2012-11-07 |
公开(公告)号: | CN102930179A | 公开(公告)日: | 2013-02-13 |
发明(设计)人: | 肖绚;闵建亮 | 申请(专利权)人: | 景德镇陶瓷学院 |
主分类号: | G06F19/10 | 分类号: | G06F19/10 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 333001 *** | 国省代码: | 江西;36 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 复杂度 分子 指纹 药物 靶标 结合 预测 方法 | ||
技术领域
本发明属于药物-靶标结合技术领域,尤其涉及基于复杂度和分子指纹的药物-靶标结合预测方法。
背景技术
在药物设计过程中识别药物-靶标结合是一个重要的步骤。在最近几年,人类为发现新的药物付出了巨大的努力,但新药出现的数量还是很低(每年大约30余种)。部分原因在于许多潜在的药物具有不可接受的毒性。如果能开发出在药物合成前就能预测其敏感性和毒性的算法将是非常有益的。药物有许多作用(包括正和副作用),而人类具有非常复杂的生化反应途径,即使是一些具有微小差别基因的人群对同一药物也可能产生完全不同的反应,导致发现和解释这些可能的作用是非常困难的,采用实验方法测定药物-靶标结合既费时也费力,因此设计能预测药物和靶标之间是否能结合的算法对开发新药将会有帮助。
随着信息技术的发展,如今科学家已经开发出许多能分析和预测药物-靶标结合的计算方法,例如docking仿真法、药效团法、功能团法、文献挖掘法、联合化学结构法和3D结构信息法等,这些方法对发现新药物都起到了很大作用,但必须看到,这些方法大都需要靶标蛋白质的三维结构信息。而随着生物技术的发展,越来越多的蛋白质序列被测序,但未知结构信息的蛋白质数量远远超过已知结构的蛋白质数量,而且有些蛋白质的结构虽然被测定,但由于私人利益关系并没有公布,所以设计出基于蛋白质一级序列预测药物-蛋白质靶标是否结合的方法非常必要。
发明内容
本发明提供了基于复杂度和分子指纹的药物-靶标结合预测方法,旨在解决现有技术提供的分析和预测药物-靶标结合的计算方法,大都需要靶标蛋白质的三维结构信息,才能判断药物与蛋白质是否能够结合,而蛋白质的三维结构信息的获取较为烦琐,有些蛋白质的结构虽然被测定,但由于私人利益关系并没有公布,限制了新药物的发现的问题。
本发明的目的在于提供基于复杂度和分子指纹的药物-靶标结合预测方法,该预测方法包括以下步骤:
步骤一,基于复杂度和氨基酸二联体生成蛋白质伪氨基酸成分,结合蛋白质序列氨基酸成分将靶标蛋白质序列转换成421维空间向量;
步骤二,通过药物分子指纹软件将药物分子描述成一个256维空间向量;
步骤三,将描述蛋白质序列的421维空间向量和描述药物分子的256维空间向量组合成677维空间向量,作为药物-靶标结合描述符;
步骤四,采用模糊K近邻法对训练集进行训练,得出预测器最佳参数,将药物-靶标结合描述符输入预测器预测药物和靶标是否有关联。
进一步,基于复杂度和二联体的蛋白质靶标伪氨基酸成分离散模型如下:
蛋白质一级结构是由20种英文字母A、C、D、E、F、G、H、I、K、L、M、N、P、Q、R、S、T、V、W和Y组成,这20个字母分别代表20种氨基酸,蛋白质一级结构决定了蛋白质的三维结构和功能;
复杂度伪氨基酸成分是用于描述序列复杂性,Ziv-Lempel复杂度测量主要反映了符号序列中的重复性,在我们的方法中采用Ziv-Lempel复杂度;
Ziv-Lempel复杂度可用合成整个序列所需要的最小步来表示。在合成过程中,只有两个步骤是允许的:加上一个新的符号确保每个序列子串都有唯一性或者从已合成的序列中拷贝最长的子串;
氨基酸二联体是指20种氨基酸两两组合排列关系,共有400种,如:AC、AD、AE、EA、DA等,氨基酸成分是指单个氨基酸在蛋白质序列中出现的频率,氨基酸二联体成分是指在序列中每个氨基酸二联体出现的频率;
蛋白质离散模型常用于描述蛋白质序列,其中伪氨基酸成分法是最常有的,其公式如下:
这里P表示蛋白质序列,前面20维向量表示20种氨基酸在序列中的比例,后面维向量为伪氨基酸成分,因为氨基酸成分将序列的前后顺序关系全部丢失,所以采用伪氨基酸成分用于描述序列中氨基酸的前后顺序关系,将复杂度和氨基酸二联体出现频率作为伪氨基酸成分,得到蛋白质序列的421维向量描述,
这里p1是复杂度因子,p2到p401是氨基酸二联体出现频率,时第个伪氨基酸成分的权重因子。
进一步,药物分子指纹描述如下:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于景德镇陶瓷学院,未经景德镇陶瓷学院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210439995.2/2.html,转载请声明来源钻瓜专利网。
- 同类专利
- 专利分类
G06F 电数字数据处理
G06F19-00 专门适用于特定应用的数字计算或数据处理的设备或方法
G06F19-10 .生物信息学,即计算分子生物学中的遗传或蛋白质相关的数据处理方法或系统
G06F19-12 ..用于系统生物学的建模或仿真,例如:概率模型或动态模型,遗传基因管理网络,蛋白质交互作用网络或新陈代谢作用网络
G06F19-14 ..用于发展或进化的,例如:进化的保存区域决定或进化树结构
G06F19-16 ..用于分子结构的,例如:结构排序,结构或功能关系,蛋白质折叠,结构域拓扑,用结构数据的药靶,涉及二维或三维结构的
G06F19-18 ..用于功能性基因组学或蛋白质组学的,例如:基因型–表型关联,不均衡连接,种群遗传学,结合位置鉴定,变异发生,基因型或染色体组的注释,蛋白质相互作用或蛋白质核酸的相互作用