[发明专利]一种成簇的规律间隔的短回文重复序列识别方法及装置在审
申请号: | 201410614178.5 | 申请日: | 2015-08-03 |
公开(公告)号: | CN104504304A | 公开(公告)日: | 2015-07-29 |
发明(设计)人: | 周丰丰;葛瑞泉;麦国琴;王普;刘记奎;赵苗苗 | 申请(专利权)人: | 深圳先进技术研究院 |
主分类号: | G06F19/22 | 分类号: | G06F19/22 |
代理公司: | 广州三环专利代理有限公司 44202 | 代理人: | 郝传鑫;熊永强 |
地址: | 518055 广东省深圳*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 规律 间隔 回文 重复 序列 识别 方法 装置 | ||
技术领域
本发明涉及基因序列识别技术领域,尤其涉及一种成簇的规律间隔的短回文重复序列识别方法。
背景技术
DNA是一种分子,可组成遗传指令,引导生物发育与生命机能运作;RNA是以DNA的一条链为模板,以碱基互补配对原则,转录而形成的一条单链,主要功能是实现遗传信息在蛋白质上的表达,是遗传信息传递过程中的桥梁;成簇的规律间隔的短回文重复序列(CRISPR,Clustered regularly interspaced short palindromic repeats)是最近几年才发现的原核生物中的调控RNA;CRISPR结构一般由一系列高度保守的直接重复序列(DR)和其间具有一定长度的间隔(spacer)组成。DR的长度范围一般从23到47bp(bp(base pair):碱基对,可用来表示DNA分子片段长度),spacer长度一般在0.6-2.5倍DR长度。Spacers来自细菌噬菌体或质粒,CRISPR结构的领导者一般位于CRISPR一侧,作为转录启动子。CRISPR(短回文重复序列)的相关(CAS)基因,毗邻CRISPR,编码CAS蛋白包括DNA或RNA结合蛋白,核酸酶,螺旋酶和聚合酶。CRISPR-CAS系统可以针对特定的DNA序列,在多种生物体上切割、添加、灭活或激活靶基因,有用于人类基因治疗的潜力,包括肌肉分化,癌症和炎症相关的疾病,其基本结构如图2所示。
目前CRISPR识别方法主要有,如:piler-cr,CRT,CRISPRFinder等,它们可以从一个给定的基因组或基因片段文件识别出其中的CRISPR。PILER-cr是在PILER软件包的基础上改进的,PILER软件包可以识别多种重复类型,包括串联数组,分散家庭,终端重复等。piler-cr基于序列自身比较查找重复序列,构建堆,然后进行CRISPR的识别、合并与确认。CRT基于改进的K-mer方法,识别准确率和效率都比较高。SPRFinder是一个Web工具来识别CRISPR结构,网页上内容经人工修正,准确率较高。以上方法,piler-cr有时会错误地识别DR边界或截断DR,准确性不高,CRT、CRISPRFinder要求CRISPR的重复数量至 少为2个及以上,CRT有时误将串联重复作为CRISPR,产生假阳性。CRISPRFinder程序脚本运行结果中偶尔会有一些误报和忽略截断的DR。
常用的基因序列比对软件有:BLAST:basic local alignment search tool局部序列比对基本检索工具;RepeatMasker:基因组重复序列识别软件;ClustalW2:用于DNA序列和蛋白质序列的多序列比对工具。
发明内容
本发明实施例提供一种成簇的规律间隔的短回文重复序列识别方法,可以减少误报或忽略截断的DR,提高CRISPR识别的准确性和全面性。
本发明实施例提供了一种成簇的规律间隔的短回文重复序列识别方法,其可包括:
A1、接收存储有DNA序列的源文件;
B1、提取所述源文件中符合指定条件的直接重复序列DR模板,根据所述DR模板确定第一代CRISPR;计算所述DR模板之间的第一相似度,将所述第一相似度大于第一预设阈值的所述DR模板设置为已归类DR模板;所述指定条件包括所述DR的长度大于等于24bp、小于等于47bp,且所述DR的数量至少为两个;
C1、查找相邻的所述第一代CRISPR之间的待定间隔序列,确定所述待定间隔序列与所述第一代CRISPR中的DR相同或相似度大于第一指定阈值,将所述待定间隔序列与所述相邻的第一代CRISPR合并为第二代CRISPR;
D1、计算所述第二代CRISPR中的SPACER的第二相似度,若所述第二相似度小于第二预设阈值,则确定所述SPACER对应的CRISPR为第三代CRISPR;
E1、确定所述第三代CRISPR中间位置的DR为标准DR,判断所述第三代CRISPR的两端是否存在与所述标准DR相同或相似度大于第二指定阈值的DR;若是,则将所述标准DR加入所述第三代CRISPR,并将更新后的第三代CRISPR确定为第四代CRISPR,提取所述第四代CRISPR以及所述第四代CRISPR中的SPACER和DR的位置和序列信息,并将所述位置和序列信息发送至结果文件。
本发明实施例提供了一种成簇的规律间隔的短回文重复序列识别装置,所述装置包括:
接收单元,用于接收存储有DNA序列的源文件;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳先进技术研究院,未经深圳先进技术研究院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410614178.5/2.html,转载请声明来源钻瓜专利网。
- 同类专利
- 专利分类
G06F 电数字数据处理
G06F19-00 专门适用于特定应用的数字计算或数据处理的设备或方法
G06F19-10 .生物信息学,即计算分子生物学中的遗传或蛋白质相关的数据处理方法或系统
G06F19-12 ..用于系统生物学的建模或仿真,例如:概率模型或动态模型,遗传基因管理网络,蛋白质交互作用网络或新陈代谢作用网络
G06F19-14 ..用于发展或进化的,例如:进化的保存区域决定或进化树结构
G06F19-16 ..用于分子结构的,例如:结构排序,结构或功能关系,蛋白质折叠,结构域拓扑,用结构数据的药靶,涉及二维或三维结构的
G06F19-18 ..用于功能性基因组学或蛋白质组学的,例如:基因型–表型关联,不均衡连接,种群遗传学,结合位置鉴定,变异发生,基因型或染色体组的注释,蛋白质相互作用或蛋白质核酸的相互作用