[发明专利]基因融合的检测装置和方法有效
申请号: | 201410477669.X | 申请日: | 2014-09-18 |
公开(公告)号: | CN104298892B | 公开(公告)日: | 2017-05-10 |
发明(设计)人: | 李光宇;田仕林;张广鑫 | 申请(专利权)人: | 天津诺禾致源生物信息科技有限公司 |
主分类号: | G06F19/18 | 分类号: | G06F19/18 |
代理公司: | 北京康信知识产权代理有限责任公司11240 | 代理人: | 吴贵明,张永明 |
地址: | 301700 天津市*** | 国省代码: | 天津;12 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基因 融合 检测 装置 方法 | ||
技术领域
本发明涉及生物信息领域,具体而言,涉及一种基因融合的检测装置和方法。
背景技术
在农业经济物种中,特别是具有重要经济价值的农业动植物,基因组结构的差异性导致了不同个体性状的差异性,其中,基因融合现象扮演着重要的角色。基因融合现象是指染色体上两个易位的基因嵌合在一起,形成一个嵌合基因的现象。这种现象一般是由于染色体发生易位、缺失或者倒置造成的。基因融合是生物体内重要的变异类型,这种变异可能会引起基因的过度表达等从而导致生物体性状发生极大变化,并且这些变化通常是不利的。
因此,准确的检测个体基因组中的基因融合现象能够为农业动植物遗传种质资源的进一步发掘利用以及分子育种的实现提供新的平台,尤其是对于多基因关联的复杂性状(如数量性状)的研究具有重要的资源性意义和巨大的应用潜力。
传统基因融合研究方法存在通量低、操作复杂、不便于大规模样品筛查的缺点,而借助于具有通量高、成本低、检测精度高和检测范围广的DNA高通量测序技术,能够低成本、快速检测高深度测序序列支持的基因重排导致的基因融合。因此,目前出现了两种主要的基于高通量测序数据的基因融合的检测方法。
第一种,基于双末端(Pair End,PE)关系的检测方法:由于高通量测序文库构建时插入大小是确定的,那么如果根据PE测序所得到的序列(reads)的比对位置所判定的插入大小,显著偏离了测序文库构建时的插入大小的平均值(例如,一对reads分别比对到不同的染色体上),则有可能是发生了基因融合。此类方法主要利用这样的双末端关系来判断基因重排导致的异常双末端比对序列(reads),根据这些序列(reads)的比对位置、插入大小等信息来检测融合。
第二种,基于截断比对(split-mapping)的检测方法:主要利用非完全比对序列(soft-clipped reads—软截断序列)的序列信息进行融合断点识别,然后对断点上下游比对的reads做聚类分析以及拼接组装,最后重新对序列做定位分析,进而检测基因融合现象。
上述两种检测方法中,基于PE关系的检测方法,是根据异常双末端比对序列(reads)的信息来进行融合检测(例如,Break Dancer),只能大致给出融合位置,而不能确定准确的断点信息,并且此类方法的假阳性较高。如图1所示,每对方向相对的黑线及中间的虚线表示测序文库中插入片段的大小,箭头方向表示文库测序时的方向,方向相对的一对黑线表示双端测序所得的一对序列(reads),图1中显示了测序所得的多对序列(reads)中每一对序列(reads)的分别与参考基因组序列进行比对时,能够比对到参考基因组不同的染色体位置上,但无法确定准确的断点位置。
而基于截断比对的检测方法,是利用非完全比对的序列信息确定断点位置进而判定融合的方法,或者并未进行局部组装从而没有对融合断点进行验证(例如,Pindel),或者没有充分利用序列比对信息造成组装耗时(例如,CREST)。因此,仍需对上述基因融合的检测方法进行改进,以提高检测的精确度。
发明内容
本发明旨在提供一种基因融合的检测的装置和方法,以改善现有技术中检测假阳性率较高的缺陷。
为了实现上述目的,根据本发明的一个方面,提供了一种基因融合的检测方法,该检测方法包括序列比对步骤、局部组装验证步骤,检测方法在序列比对步骤和局部组装验证步骤之间,还包括序列局部聚类的步骤,序列局部聚类的步骤包括:根据序列比对步骤得到的与参考基因组上第一位置完全匹配的第一类序列、与第一位置部分匹配且与参考基因组上第二位置部分匹配的第二A类序列和与第一位置部分匹配而不与第二位置部分匹配的第二B类序列,将第二A类序列和第二B类序列基于与第一位置和第二位置的距离进行局部聚类,得到一系列第一位置聚类簇和一系列第二位置聚类簇;局部组装验证的步骤包括:将一系列第二位置聚类簇中的第二A类序列和第二B类序列进行局部组装,得到组装序列;将组装序列再次比对到参考基因组上,查看组装序列的比对结果是否与第二位置聚类簇中第二A类序列的比对结果一致,若一致,则证明第一位置和第二位置即为基因融合位置。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于天津诺禾致源生物信息科技有限公司,未经天津诺禾致源生物信息科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410477669.X/2.html,转载请声明来源钻瓜专利网。
- 同类专利
- 专利分类
G06F 电数字数据处理
G06F19-00 专门适用于特定应用的数字计算或数据处理的设备或方法
G06F19-10 .生物信息学,即计算分子生物学中的遗传或蛋白质相关的数据处理方法或系统
G06F19-12 ..用于系统生物学的建模或仿真,例如:概率模型或动态模型,遗传基因管理网络,蛋白质交互作用网络或新陈代谢作用网络
G06F19-14 ..用于发展或进化的,例如:进化的保存区域决定或进化树结构
G06F19-16 ..用于分子结构的,例如:结构排序,结构或功能关系,蛋白质折叠,结构域拓扑,用结构数据的药靶,涉及二维或三维结构的
G06F19-18 ..用于功能性基因组学或蛋白质组学的,例如:基因型–表型关联,不均衡连接,种群遗传学,结合位置鉴定,变异发生,基因型或染色体组的注释,蛋白质相互作用或蛋白质核酸的相互作用