[发明专利]基于鸽群优化算法识别关键蛋白质的方法在审
申请号: | 201910662124.9 | 申请日: | 2019-07-22 |
公开(公告)号: | CN110400599A | 公开(公告)日: | 2019-11-01 |
发明(设计)人: | 雷秀娟;杨晓琴;张宇辰 | 申请(专利权)人: | 陕西师范大学 |
主分类号: | G16B20/00 | 分类号: | G16B20/00;G16B50/10;G16B40/00;G06N3/00 |
代理公司: | 西安通大专利代理有限责任公司 61200 | 代理人: | 李红霖 |
地址: | 710119 陕西*** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 关键蛋白质 蛋白质相互作用 鸽子 蛋白质 仿真实验结果 测度 亚细胞定位 功能注释 生物特性 算法识别 拓扑特征 网络转化 优化算法 初始化 灵敏度 群优化 无向图 正确率 指南针 准确率 地标 算法 阴性 预测 网络 优化 | ||
本发明公开了一种基于鸽子优化算法识别关键蛋白质的方法,通过将蛋白质相互作用网络转化为无向图、获取蛋白质对应的亚细胞定位信息以及功能注释信息、对蛋白质相互作用网络中结点和边进行处理、初始化鸽子位置、执行指南针操作、地标操作产生关键蛋白质。本发明方法能准确地识别关键蛋白质;仿真实验结果表明,灵敏度、特异性、F测度、阳性预测值、阴性预测值以及正确率等指标较优;与其他关键蛋白质识别方法相比,将鸽子算法的优化特性与蛋白质相互作用网络的拓扑特征以及蛋白质内在的生物特性进行结合来识别关键蛋白质,提高了关键蛋白质的识别准确率。
技术领域
本发明属于生物信息技术领域,具体涉及一种基于鸽群优化算法识别关键蛋白质的方法。
背景技术
蛋白质是生命有机体的物质基础,细胞内几乎所有的生命活动过程都离不开蛋白质的参与。生物体内蛋白质种类繁多,不同的蛋白质的重要程度不尽相同,据此,可将生物体内的蛋白质分为两大类,关键蛋白质和非关键蛋白质。关键蛋白质,是细胞生命活动所必须的蛋白质,它的异常或缺失,会造成有关蛋白质复合体功能丧失,甚至导致生物体无法存活。对关键蛋白质的预测研究不仅有助于深入了解生命活动的本质和疾病的发生机理,还可以为药物研发提供靶标,对癌症、老年痴呆等人类疾病的临床诊断和治疗具有重要意义。
早些年,关键蛋白质的识别主要是依靠某些生物实验,常用的方法有:单基因敲除、RNA干扰、条件去除等。但是这些方法所需成本极高、需要消耗大量的生物资源,而且适用的物种范围也是极其有限的。近年来,通过高通量筛选、计算方法预测以及文献挖掘等方法,可获得大规模的生物信息数据,进一步地,随着信息技术的不断发展,利用计算机仿真的技术手段对关键蛋白质进行预测成为了蛋白质组学一个主流的研究方向。
已有大量实验研究表明,蛋白质的关键性与其在蛋白质相互作用网络中的拓扑特性密切相关,那些处于网络核心地位,拥有更多的相互作用的蛋白质有更大的可能性表现为关键蛋白质。在2001年,Jeong等人提出了经典的“中心性-致死性”法则,基于此,越来越多的学者基于蛋白质相互作用网络的拓扑结构对蛋白质的关键性进行预测研究,提出了许多中心性方法来识别关键蛋白质。其中,最经典的中心性方法有:度中心性(DegreeCentrality,DC),介数中心性(Betweenness Centrality,BC),接近度中心性(ClosenessCentrality,CC),特征向量中心性(Eigenvector Centrality,EC),信息中心性(Information Centrality,IC),子图中心性(Subgraph Centrality,SC)等。随着对蛋白质网络拓扑结构的不断深入研究,一些其他的基于网络拓扑特性的关键蛋白质识别方法也相继被提出。Lin等人提出了最大邻居连通度(MNC)和最大连通密度(DMNC),Li等人提出了一种局部平均连通性方法(LAC),Qi等人提出了一种局部相互作用密度方法(LID),Wang等人提出了一种基于边聚集系数的中心性方法(NC)等。这些基于网络拓扑的中心性方法尽管可以用来从蛋白质相互作用网络中识别关键蛋白质,但是,预测性能在很大程度上主要是取决于蛋白质相互作用网络数据的可靠性,而这些通过生物实验获得的数据往往存在有高度假阳性和假阴性。另一方面,这些方法仅仅从网络拓扑的角度进行研究分析而忽略了蛋白质内在的生物特性。
为克服利用网络拓扑的中心性方法所存在的上述缺陷,一些学者将蛋白质的某些生物信息融合到蛋白质相互作用网络中,进行关键蛋白质的预测研究。如PeC、WDC和CoEWC等方法是将基因表达数据与蛋白质相互作用网络进行整合;ION方法利用直系同源信息来量化蛋白质的保守性,并将蛋白质的保守特性以及它们在蛋白质相互作用网络上的拓扑特性进行结合;CIC方法则考虑了蛋白质相互作用网络的拓扑特性和蛋白质的亚细胞定位特性;LIDC、LBCC和UC等方法是在蛋白质相互作用网路中结合了已知的蛋白质复合物信息;除此之外,也有一些其他的方法,将多种生物特性和拓扑特性进行整合,如TEO方法结合了边聚集系数、基因表达和GO注释信息;SON方法融合了蛋白质相互作用网络的拓扑特性、亚细胞定位以及直系同源信息。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于陕西师范大学,未经陕西师范大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910662124.9/2.html,转载请声明来源钻瓜专利网。