[发明专利]对具有已知序列的生物序列进行分析的方法和系统有效
申请号: | 201811290409.6 | 申请日: | 2018-10-31 |
公开(公告)号: | CN111128305B | 公开(公告)日: | 2023-09-22 |
发明(设计)人: | 方东明;陈晓丽;吴晨雨;陈利鹏;刘欢;刘心 | 申请(专利权)人: | 深圳华大生命科学研究院 |
主分类号: | G16B30/10 | 分类号: | G16B30/10 |
代理公司: | 北京清亦华知识产权代理事务所(普通合伙) 11201 | 代理人: | 赵天月 |
地址: | 518083 广东省深*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 具有 已知 序列 生物 进行 分析 方法 系统 | ||
1.一种对具有已知序列的生物序列进行分析的方法,其特征在于,包括:
(a)基于所述生物序列,确定所述生物序列的全部Kmer序列,所述生物序列是通过对大片段氨基酸序列或核苷酸序列进行窗口划分获得的;
(b)确定所述全部Kmer序列的每一个的频数,并基于所述频数,确定至少一个高频Kmer和至少一个低频Kmer;
(c)基于所述至少一个高频Kmer,确定初步重复候选区域,其中,基于所述低频Kmer与相邻高频Kmer之间的距离,确定是否将所述低频Kmer整合至所述初步重复候选区域中;当所述低频Kmer与相邻高频Kmer之间的距离小于预定阈值时,将所述低频Kmer的序列整合到所述初步重复候选区域中;
步骤(c)进一步包括:
(c-1)通过对所述初步重复候选区域进行延伸处理,得到经过延伸的初步候选区域;
(c-2)沿着所述经过延伸的初步候选区域的预定顺序,确定首个高频Kmer,并确定所述首个高频Kmer在所述经过延伸的初步候选区域中的位置;
(c-3)基于下游Kmer的频数,沿着所述首个高频Kmer的位置向下游进行延伸,直到遇到频数实质变化Kmer,停止所述延伸,以便获得至少一个重复单元。
2.根据权利要求1所述的方法,其特征在于,所述生物序列为氨基酸序列,所述Kmer序列的长度为3个氨基酸。
3.根据权利要求1所述的方法,其特征在于,所述生物序列为核酸序列,所述Kmer序列的长度为10个核苷酸。
4.根据权利要求2所述的方法,其特征在于,对于氨基酸序列,所述生物序列的长度为200~500个氨基酸。
5.根据权利要求2所述的方法,其特征在于,对于氨基酸序列,所述生物序列的长度为300个氨基酸。
6.根据权利要求3所述的方法,其特征在于,对于核酸序列,所述生物序列的长度为800~1500bp。
7.根据权利要求3所述的方法,其特征在于,对于核酸序列,所述生物序列的长度为1000bp。
8.根据权利要求1所述的方法,其特征在于,在步骤(b)中,将所述全部Kmer序列每一个的频数与预定的频数阈值进行比较,以便确定所述高频Kmer和所述低频Kmer,其中,所述预定阈值是所述至少一个Kmer序列中最高频数的至少0.3倍。
9.根据权利要求1所述的方法,其特征在于,进一步包括对所述重复单元进行评估。
10.根据权利要求1所述的方法,其特征在于,所述方法进一步包括:将所述至少一个重复单元进行比对,以便确定所述至少一个重复单元的一致性序列。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳华大生命科学研究院,未经深圳华大生命科学研究院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811290409.6/1.html,转载请声明来源钻瓜专利网。