[发明专利]一种G蛋白偶联受体家族的分层分类方法无效
申请号: | 201310176146.7 | 申请日: | 2013-05-13 |
公开(公告)号: | CN103258146A | 公开(公告)日: | 2013-08-21 |
发明(设计)人: | 贺佳;高青斌 | 申请(专利权)人: | 中国人民解放军第二军医大学 |
主分类号: | G06F19/24 | 分类号: | G06F19/24;G06F19/28 |
代理公司: | 上海泰能知识产权代理事务所 31233 | 代理人: | 黄志达 |
地址: | 200433 *** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 蛋白 受体 家族 分层 分类 方法 | ||
技术领域
本发明属于蛋白质家族的功能研究领域,特别涉及一种G蛋白偶联受体家族的分层分类方法。
背景技术
G蛋白偶联受体(G-protein coupled receptors,GPCRs)是人体内最大的膜受体蛋白家族,参与了广泛的生理和病理过程。研究表明,GPCRs的突变会造成各种疾病。例如GPCRs的活化和抑制在神经传导中有举足轻重的作用,和神经性疾病、神经病变、心脏病、代谢紊乱以及癌症等都有关。由于GPCRs家族与它们的结构和功能密切相关,所以,运用生物信息学方法对GPCRs家族进行识别和分类是一项非常有意义的工作,有助于发现一些新的GPCRs和认识已有GPCRs的新功能,进而发现与之结合的特异性配体。根据配体的药理特性和序列相似性,GPCRs大体上可分为五个家族:视紫红质家族、分泌素家族、代谢型谷氨酸/信息素家族、犁鼻器受体家族和味觉受体家族。每个家族又包含若干个子家族。虽然GPCRs各家族之间序列的相似程度较低,但各家族内部则有一定的相似性。例如,GPCRs最大的一类为A家族,包括光受体(视紫红质)和肾上腺素受体,它们的第三个跨膜结构域在细胞内部分的天冬氨酸-精氨酸-酪氨酸序列(缩写为DRY)中的精氨酸是高度保守的。这种序列特性为GPCRs的计算生物学研究提供了可能。
在过去的几年中,研究人员提出了多种识别GPCRs的方法。一种常用的方法是利用序列比对工具对数据库进行序列相似性搜索,例如BLAST、FASTA等。但是,当查询蛋白序列与数据库序列的相似性较低时,这种基于序列相似性的搜索方法并不十分有效,况且对于GPCRs而言,人们对其功能-序列相似性的关联关系并不十分清楚。因此,一些基于统计学和机器学习的方法得到了广泛应用,如协变判别分析、支持向量机和决策树等。然而,这些方法通常只局限于对GPCRs单个或有限几个层次的分类和识别,尚没有建立完备的多层次分类模型,因而不能识别所有受体的亚型;而要了解GPCRs的具体功能,必须对其亚型进行深入分析。因此,现有方法仍存在一定的缺陷,特别是分类精度不高,缺乏有效的分层分类模型等。为了解决上述问题,须研究多层次的GPCRs家族分类方法。分层分类策略目前已在数据挖掘和生物信息学研究领域得到了广泛应用,可用于解决复杂分类问题,具有较大的灵活性和很好的推广性。根据GPCRs家族的分类特点,建立GPCRs家族的分层分类模型,对GPCRs家族功能进行预测,可用于识别人类基因组内未知的GPCRs,寻找新的药物靶点。目前,还没有一种计算机方法在7个水平上对GPCRs进行识别和分类。
发明内容
本发明所要解决的技术问题是提供一种G蛋白偶联受体家族的分层分类方法,该方法解决实验方法成本高、周期长等问题,达到快速分析G蛋白偶联受体家族功能的目的,提高人们对G蛋白偶联受体家族及其亚型的认识。
本发明的一种G蛋白偶联受体家族的分层分类方法,包括:
(1)获取G蛋白偶联受体序列数据及相应的球蛋白数据,对数据集进行去冗余处理,采用二肽组成表示G蛋白偶联受体,采用最近邻算法构建分类器,建立7水平分层分类模型;
(2)对每条待识别的蛋白序列进行判别分析,若待识别蛋白被判别为球蛋白,则分类过程结束;若判别为G蛋白偶联受体,则自动进入下一层,进行功能家族分类;若待识别蛋白被判别为味觉受体家族,则分类过程结束;若判别为其他家族,则进行子家族分类;完成子家族分类之后,进一步细分至具体类型;最终根据训练样本将待识别蛋白分至具体亚型。
所述步骤(1)中的数据集中每两条蛋白质序列之间的相似性小于某个阈值。
所述阈值随着分层的深入而逐渐增大,第一层的阈值为40%,最后一层的阈值为90%。
所述步骤(1)中的二肽组成定义为一个400维的特征向量。
所述步骤(2)中对视紫红质家族进行7水平子家族分类。
所述分层分类方法支持蛋白质序列的批量分析。
根据GPCRs的功能层次示意图,本发明提出的GPCRs家族7水平分层分类模型如附图1所示。该模型实现了对GPCRs在7个不同层次的预测分类。
本发明的具体实现方案如下:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国人民解放军第二军医大学,未经中国人民解放军第二军医大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310176146.7/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种用于移动终端的人脸识别方法
- 下一篇:一种物料干燥装置
- 同类专利
- 专利分类
G06F 电数字数据处理
G06F19-00 专门适用于特定应用的数字计算或数据处理的设备或方法
G06F19-10 .生物信息学,即计算分子生物学中的遗传或蛋白质相关的数据处理方法或系统
G06F19-12 ..用于系统生物学的建模或仿真,例如:概率模型或动态模型,遗传基因管理网络,蛋白质交互作用网络或新陈代谢作用网络
G06F19-14 ..用于发展或进化的,例如:进化的保存区域决定或进化树结构
G06F19-16 ..用于分子结构的,例如:结构排序,结构或功能关系,蛋白质折叠,结构域拓扑,用结构数据的药靶,涉及二维或三维结构的
G06F19-18 ..用于功能性基因组学或蛋白质组学的,例如:基因型–表型关联,不均衡连接,种群遗传学,结合位置鉴定,变异发生,基因型或染色体组的注释,蛋白质相互作用或蛋白质核酸的相互作用