[发明专利]一种基于压缩和聚类的批量蛋白质同源性搜索方法有效
申请号: | 201610309077.6 | 申请日: | 2016-05-11 |
公开(公告)号: | CN106022000B | 公开(公告)日: | 2018-06-08 |
发明(设计)人: | 葛宏伟;余景洪 | 申请(专利权)人: | 大连理工大学 |
主分类号: | G06F19/24 | 分类号: | G06F19/24 |
代理公司: | 大连理工大学专利中心 21200 | 代理人: | 关慧贞;梅洪玉 |
地址: | 116024 辽*** | 国省代码: | 辽宁;21 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种基于压缩和聚类的批量蛋白质同源性搜索方法,属于计算机应用技术与生物技术的交叉领域。该方法充分利用了蛋白质数据库序列和查询序列中存在的序列相似信息,首先对查询序列和蛋白质数据库通过冗余分析和冗余移除过程进行压缩操作;进而对压缩后的蛋白质数据库进行相似子序列聚类,然后在聚类数据库基础上利用映射原理进行查找以发现潜在的结果,并根据找到的潜在结果集建立可执行数据库;最后在可执行数据库上进行同源性搜索,以获得最终的同源性序列。本发明的方法通过在构建的可执行数据库上进行同源性搜索,大大减少了重复序列比对和无间隙扩展的时间。 | ||
搜索关键词: | 蛋白质数据库 搜索 可执行 聚类 蛋白质同源性 数据库 查询序列 同源性 压缩 计算机应用技术 聚类数据库 同源性序列 冗余分析 压缩操作 映射原理 重复序列 冗余 结果集 潜在的 无间隙 子序列 比对 构建 移除 生物技术 查找 发现 | ||
【主权项】:
一种基于压缩和聚类的批量蛋白质同源性搜索方法,其特征在于,该方法包括如下步骤:(1)离线状态下,创建压缩蛋白质数据库1)从左向右扫描一条蛋白质序列,创建一个key‑entry映射集映射集的每个key‑entry映射中,key是由4‑6个氨基酸组成的蛋白质序列片段,entry包括三个属性:序列号、起始氨基酸位置、指向下一条序列的指针;2)从左到右扫描一条新的蛋白质序列,该新的蛋白质序列片段同样由4‑6个氨基酸组成;应用Needleman‑Wunsch算法,对每个新的蛋白质序列片段和上述创建的key进行相似性比较;如果发现新的蛋白质序列片段和上述的key相似性超过80%时,则删除新的蛋白质序列片段,并把不同之处记录在脚本中;否则就用新的蛋白质序列片段,创建另外一个key并建立相应的entry;3)创建一个压缩蛋白质数据库,包含了所有key‑entry映射和脚本信息;创建一个压缩查询序列集,包含了所有key‑entry映射和脚本信息; (2)离线状态下,创建上述压缩蛋白质数据库的聚类数据库1)创建一个key‑entry映射C,首先确定其key的长度,使用BLOSUM62矩阵产生10个缩减的氨基酸组(A, {K, R}, {E, D, N, Q}, C, G, H, {I, L, V, M}, {F, Y, W}, P, {S,T}),并且选取矩阵的最高得分来代表相应氨基酸组的罚分,依据罚分限定key是由6‑9个氨基酸组成的一个新的蛋白质序列片段;key‑entry映射C中的entry是由序列号、起始氨基酸位置、指向下一条序列的指针三个属性组成;从左向右扫描压缩蛋白质数据库中的蛋白质序列,其每个新片段创建一个key并建立相应的entry;2)创建seed‑entry映射1,首先确定seed的长度,seed根据key‑entry映射C中key的起始位置分别向左右扩展5个氨基酸,其长度为10;由汉明距离计算同一个key产生的不同seed的相似性,相似性超过90%的seed被聚在一个簇中,每一个簇选择一个代表seed,其他都为成员seed;seed‑entry映射1中的seed为代表seed;seed‑entry映射1中的entry是由簇ID和代表seed的位置两个属性组成;3)创建seed‑entry映射2,其seed为上述簇中其它所有的成员seed,各成员seed都与代表seed链接,seed‑entry映射2中的entry是由簇ID和成员seed的位置组成;(3)构建可执行数据库并进行蛋白质同源性批量搜索1)根据上述的压缩查询序列集,创建一个与上述的seed‑entry映射1同样结构的seed‑entry映射3,将seed‑entry映射1中key的起始位置替换为压缩查询序列集key‑entry映射中key的起始位置,其余方式与创建seed‑entry映射1相同;2)获得Hits,首先将seed‑entry映射3和上述的seed‑entry映射1进行比较,如果相同,两个映射中的seed将会根据其映射结构里的entry还原成原始序列片段;进而计算seed‑entry映射3和seed‑entry映射1还原成原始序列片段之间的相似性;如果相似性超过80%,则由seed‑entry映射1还原成的原始序列片段进行无间隙扩展,再进行有间隙扩展,得到Hits1;随之根据seed‑entry映射2结构里的entry将其seed还原成原始序列片段;计算seed‑entry映射3和seed‑entry映射2还原成原始序列片段之间的相似性;如果相似性超过80%,则由seed‑entry映射2还原成的原始序列片段进行无间隙扩展,再进行有间隙扩展,得到Hits2;Hits由上述Hits1和Hits2组成;根据压缩阶段建立的脚本文件对Hits进行解压操作,Hits解压之后的序列集与压缩查询序列集同源性较为接近,利用Hits解压之后的序列集重建一个适合BLAST算法的可执行数据库;3)利用BLAST+工具对上述可执行数据库进行同源性搜索。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于大连理工大学,未经大连理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201610309077.6/,转载请声明来源钻瓜专利网。
- 同类专利
- 专利分类
G06 计算;推算;计数
G06F 电数字数据处理
G06F19-00 专门适用于特定应用的数字计算或数据处理的设备或方法
G06F19-10 .生物信息学,即计算分子生物学中的遗传或蛋白质相关的数据处理方法或系统
G06F19-12 ..用于系统生物学的建模或仿真,例如:概率模型或动态模型,遗传基因管理网络,蛋白质交互作用网络或新陈代谢作用网络
G06F19-14 ..用于发展或进化的,例如:进化的保存区域决定或进化树结构
G06F19-16 ..用于分子结构的,例如:结构排序,结构或功能关系,蛋白质折叠,结构域拓扑,用结构数据的药靶,涉及二维或三维结构的
G06F19-18 ..用于功能性基因组学或蛋白质组学的,例如:基因型–表型关联,不均衡连接,种群遗传学,结合位置鉴定,变异发生,基因型或染色体组的注释,蛋白质相互作用或蛋白质核酸的相互作用
G06F 电数字数据处理
G06F19-00 专门适用于特定应用的数字计算或数据处理的设备或方法
G06F19-10 .生物信息学,即计算分子生物学中的遗传或蛋白质相关的数据处理方法或系统
G06F19-12 ..用于系统生物学的建模或仿真,例如:概率模型或动态模型,遗传基因管理网络,蛋白质交互作用网络或新陈代谢作用网络
G06F19-14 ..用于发展或进化的,例如:进化的保存区域决定或进化树结构
G06F19-16 ..用于分子结构的,例如:结构排序,结构或功能关系,蛋白质折叠,结构域拓扑,用结构数据的药靶,涉及二维或三维结构的
G06F19-18 ..用于功能性基因组学或蛋白质组学的,例如:基因型–表型关联,不均衡连接,种群遗传学,结合位置鉴定,变异发生,基因型或染色体组的注释,蛋白质相互作用或蛋白质核酸的相互作用