[发明专利]基于蛋白质相互作用网络和蛋白质组学的蛋白质鉴定方法有效
申请号: | 201410399487.5 | 申请日: | 2014-08-14 |
公开(公告)号: | CN104156603B | 公开(公告)日: | 2017-02-15 |
发明(设计)人: | 王建新;钟坚成;李敏 | 申请(专利权)人: | 中南大学 |
主分类号: | G06F19/18 | 分类号: | G06F19/18 |
代理公司: | 长沙市融智专利事务所43114 | 代理人: | 黄美成 |
地址: | 410083 湖南*** | 国省代码: | 湖南;43 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 蛋白质 相互作用 网络 鉴定 方法 | ||
技术领域
本发明属于系统生物学领域,尤其涉及一种基于蛋白质相互作用网络和蛋白质组学的蛋白质鉴定方法。
背景技术
人类基因组测序的完成标志着后基因组时代的来临,而蛋白质组学是后基因组时代中最重要的领域之一。蛋白质组学的目的是通过系统地、定量地研究蛋白质在细胞组织中的表达情况,来揭示基因的功能、蛋白质之间的关系以及生命过程的运行机制。其主要任务包括:蛋白质序列鉴定、蛋白质修饰鉴定、蛋白质定量分析、蛋白质结构预测和蛋白质功能预测等问题,而确定出某种细胞器官或组织在一定条件下表达出了哪些蛋白质是其最基本任务之一。
目前,蛋白质鉴定主要是采用鸟枪法蛋白质组学研究方法,其步骤是先将标识生物样本中的蛋白质混合物经过简单或不经过分离就被酶解为肽段混合物,肽段混合物经色谱分离和离子化后,经串联质谱仪产生质谱数据用于肽段鉴定,最后再从鉴定的肽段推导可能的蛋白质。该方法可在短时间内获得大量质谱数据并鉴定出蛋白质。
目前,用于鸟枪法蛋白质组学中鉴定蛋白质的方法包括基于图模型、基于统计模型、基于优化模型、基于节俭模型、基于多信息集成的分析方法。
基于统计模型鉴定方法主要包括ProteinProphet、PANORAMICS、MSBayesPro、Fido、Qscore等方法。其主要思想是用肽鉴定软件得出的肽得分和相关信息,通过统计方法估算出给定蛋白质存在的概率。基于统计模型方法可以分为非参数统计模型和参数统计模型。非参数统计模式未考虑肽样本的概率分布,较参数统计模型而言,非参数统计模型具有更高的鲁棒性。ProteinProphet是应用最广泛的蛋白质推断方法,该方法是采用一个迭代过程来估计蛋白质概率,在迭代过程中不断调整蛋白质概率。PANORAMICS也是一个与ProteinProphet类似的方法,它在迭代推断蛋白质过程中不断的调整肽和蛋白质概率,直到收敛。针对一个肽映射多个蛋白质的情况,MSBayesPro、Fido应用贝叶斯方法推断蛋白质存在概率。Qscore是一个参数统计模型来预测蛋白质概率,该方法应用一个类似于二项式分布的统计算法,其参数使用如蛋白质大小、肽匹配质量、一个蛋白质匹配的肽数量、质谱数据集大小等。PROT_ROBE方法在蛋白质数据库搜索能得到适当肽的概率时,使用二项式分布模型推断蛋白质概率,它还设计了一个多项式模型用于任何蛋白质数据库搜索的肽结果。ComByne应用p值方法对偶然出现的肽的概率进行建模,并充分利用蛋白质长度、保留时间和谱相关系数等信息,采用多重假设检验方法来评估蛋白质存在可信度。
基于节俭模型鉴定方法主要包括IDPicker、DBParser、MassSieve、LDFA、ProteinLasso等方法。这些方法的主要思想是将肽和蛋白质描述为二分图模型,使用最少的蛋白质子集来解释所有被标识的肽,将问题规约为集合覆盖问题(NP难问题)。IDPicker首先根据用户设定的假阳率过滤低可信度的肽集合,然后使用贪婪算法去选择候选的蛋白质来覆盖所有保留的肽。该方法还支持把重复的肽标识归类。DBParser将蛋白质分成6个层次,应用节俭模型分别得到每一个层次的蛋白质列表。该方法首先获得无二义的蛋白质列表,然后得出不明确的蛋白质列表,最后对已推断的蛋白质去冗。LDFA是引入肽的可测度,应用简单的贪婪算法解决蛋白质集合覆盖所有标识肽问题。ProteinLasso也引入了肽的可测度,应用Lasso算法解决蛋白质集合覆盖所有标识肽问题。
基于优化模型的主要思想是:在二分图的模型的基础上,应用优化模型获取所有的满足一些简单标准的潜在蛋白质列表,这是基于蛋白质样本中有一大部分是同源蛋白质的假设。DTASelect是经典的优化模型,该方法能推断出的包含充分数量肽的蛋白质。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中南大学,未经中南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410399487.5/2.html,转载请声明来源钻瓜专利网。
- 同类专利
- 专利分类
G06F 电数字数据处理
G06F19-00 专门适用于特定应用的数字计算或数据处理的设备或方法
G06F19-10 .生物信息学,即计算分子生物学中的遗传或蛋白质相关的数据处理方法或系统
G06F19-12 ..用于系统生物学的建模或仿真,例如:概率模型或动态模型,遗传基因管理网络,蛋白质交互作用网络或新陈代谢作用网络
G06F19-14 ..用于发展或进化的,例如:进化的保存区域决定或进化树结构
G06F19-16 ..用于分子结构的,例如:结构排序,结构或功能关系,蛋白质折叠,结构域拓扑,用结构数据的药靶,涉及二维或三维结构的
G06F19-18 ..用于功能性基因组学或蛋白质组学的,例如:基因型–表型关联,不均衡连接,种群遗传学,结合位置鉴定,变异发生,基因型或染色体组的注释,蛋白质相互作用或蛋白质核酸的相互作用