[发明专利]对具有已知序列的生物序列进行分析的方法和系统有效
申请号: | 201811290409.6 | 申请日: | 2018-10-31 |
公开(公告)号: | CN111128305B | 公开(公告)日: | 2023-09-22 |
发明(设计)人: | 方东明;陈晓丽;吴晨雨;陈利鹏;刘欢;刘心 | 申请(专利权)人: | 深圳华大生命科学研究院 |
主分类号: | G16B30/10 | 分类号: | G16B30/10 |
代理公司: | 北京清亦华知识产权代理事务所(普通合伙) 11201 | 代理人: | 赵天月 |
地址: | 518083 广东省深*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 具有 已知 序列 生物 进行 分析 方法 系统 | ||
本发明提出了一种对具有已知序列的生物序列进行分析的方法。该方法包括:(a)基于所述生物序列,确定所述生物序列的全部Kmer序列,所述生物序列是通过对大片段氨基酸序列或核苷酸序列进行窗口划分获得的;(b)确定所述全部Kmer序列的每一个的频数,并基于所述频数,确定至少一个高频Kmer和至少一个低频Kmer;(c)基于所述至少一个高频Kmer,确定初步重复候选区域,其中,基于所述低频Kmer与相邻高频Kmer之间的距离,确定是否将所述低频Kmer整合至所述初步重复候选区域中。
技术领域
本发明涉及生物信息领域,具体地,本发明涉及对具有已知序列的生物序列进行分析的方法和系统。
背景技术
研究表明,在高等生物的基因组中非编码区都占到基因组序列的绝大部分,如人的基因组~3Gb,但非编码区占有高达~97%的比例。而绝大部分非编码序列以高度重复序列的形式存在,如卫星、小卫星、微卫星、长散布元件、短散布元件等,各种重复序列的类型与它在染色体上的分布密切相关。
以前,人们认为重复序列不过是一些冗余,或“无用”DNA。然而,大量的实验及研究表明:重复序列不是垃圾,而是影响着生命的进化、遗传、变异;同时它对基因表达、转录调控、染色体的构建以及生理代谢都起着不可或缺的作用。例如,一些三核苷酸重复序列拷贝数的异常增加会导致某些人类遗传病的产生,如脆性X染色体综合症。另外,随着研究的深入,发现基因重复的蛋白功能域,常被应用于结构锚定模式,与生物聚合物平稳地相互作用。例如,具有Tetratricopeptide repeats(TPRs),ankyrin(ANK)repeats的蛋白,重复单元分别为34和33个氨基酸,它们都形成一个helix-turn-helix结构。在原核到真核的整个进化过程中,这类家族都非常保守。这些重复的功能域已经被报道与其它的蛋白和RNA相互作用,在细胞周期调控,转录调节,转化抑制,蛋白易位上扮演着重要的角色。因此,识别非编码区核酸,或编码区蛋白序列的重复序列是分析其功能的基础。
其中,串联重复序列(tandemrepeat)是指以一定的碱基数作为重复单元,首尾相连排列在一起形成聚集区的重复序列。在此基础上,提出了周期性重复序列的概念,类似于串联重复序列,但允许以下特殊情况:不同的重复单元间存在差异(在长期的进化过程上,会出现少量的错配或Gap);相邻的重复单元间存在其它序列(即被某些序列随机隔开);部分蛋白序列上也存在重复单元(尤其是功能域区域)。串联重复序列是这类重复序列中的一种情况,表现为在某个区域内,出现相对集中的重复单元“簇”。
串联重复序列的识别问题,根据所采用方法的不同,现有的重复序列发现方法可以分为2类,这2种方法都能识别出基因组序列中串联重复序列出现的位置:
(1)基于字符串精确匹配的方法:可理解为判断是否存在重复单元,且其存在的形式是否为串联,如TRF。
(2)基于数字信息处理的方法:采用二进制方法来表示各个碱基,并分别求出各碱基的频谱,最后将4个碱基的频谱相加得到序列的总频谱。观察频谱图可得到序列中串联重复序列拷贝出现的频率,如SRF。
然而,序列在长期的进化过程中,存在某些位置上发生例如插入、删除、替换等突变,因此,对于串联重复序列,其重复单元可能存在差异。另外,串联重复序列识别中要处理的数据量一般都比较大,往往是整个基因组,因此,计算量是识别方法中应该考虑的重要问题。而现有的方法,
(1)基于字符串精确匹配的方法,一方面不能保证发现序列中所有可能的串联重复序列,另一方面,这种方法的计算复杂度会随着序列中串联重复序列拷贝的长度呈现指数形式增长。
(2)基于数字信号处理的方法,一方面对核酸序列采用二进制表示法,需要对每条序列做4次离散傅里叶变换才能求出核酸序列的频谱图,计算量大。另外,需要针对每个串联重复拷贝频率分别求其加窗傅里叶变换,才能得到核酸序列中所有串联重复序列出现的位置,识别灵敏度低。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳华大生命科学研究院,未经深圳华大生命科学研究院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811290409.6/2.html,转载请声明来源钻瓜专利网。