[发明专利]基因融合的检测装置和方法有效
申请号: | 201410477669.X | 申请日: | 2014-09-18 |
公开(公告)号: | CN104298892B | 公开(公告)日: | 2017-05-10 |
发明(设计)人: | 李光宇;田仕林;张广鑫 | 申请(专利权)人: | 天津诺禾致源生物信息科技有限公司 |
主分类号: | G06F19/18 | 分类号: | G06F19/18 |
代理公司: | 北京康信知识产权代理有限责任公司11240 | 代理人: | 吴贵明,张永明 |
地址: | 301700 天津市*** | 国省代码: | 天津;12 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基因 融合 检测 装置 方法 | ||
1.一种基因融合的检测方法,所述检测方法包括序列比对步骤、局部组装验证步骤,其特征在于,所述检测方法在所述序列比对步骤和所述局部组装验证步骤之间,还包括序列局部聚类的步骤,
所述序列局部聚类的步骤包括:根据所述序列比对步骤得到的与参考基因组上第一位置完全匹配的第一类序列、与所述第一位置部分匹配且与所述参考基因组上第二位置部分匹配的第二A类序列和与所述第一位置部分匹配而不与所述第二位置部分匹配的第二B类序列,将所述第二A类序列和第二B类序列基于与所述第一位置和第二位置的距离进行局部聚类,得到一系列第一位置聚类簇和一系列第二位置聚类簇;
所述局部组装验证的步骤包括:将所述一系列第二位置聚类簇中的第二A类序列和第二B类序列进行局部组装,得到组装序列;将所述组装序列再次比对到所述参考基因组上,查看所述组装序列的比对结果是否与所述第二位置聚类簇中第二A类序列的比对结果一致,若一致,则证明所述第一位置和第二位置即为基因融合位置。
2.根据权利要求1所述的检测方法,其特征在于,在所述序列局部聚类步骤中,将所述第二A类序列和第二B类序列基于与所述第一位置和第二位置的距离进行局部聚类,得到一系列第一位置聚类簇和一系列第二位置聚类簇的步骤为:
将所述第二A类序列和所述第二B类序列中与所述第一位置偏差不超过3bp的序列进行聚类,得到基于所述第一位置的一系列第一位置聚类簇;将所述第二A类序列中与所述第二位置偏差不超过3bp的序列进行聚类,得到基于所述第二位置的一系列第二位置聚类簇,同时将第二B类序列中不能与所述第二位置进行匹配的部分序列分别与所述一系列第二位置聚类簇中的序列进行比对,若能与所述一系列第二位置聚类簇中的某一个第二位置聚类簇的序列相匹配,则将所述第二B类序列归于所述某一个第二位置聚类簇中。
3.根据权利要求2所述的检测方法,其特征在于,所述检测方法在所述序列局部聚类之后,以及在进行所述局部组装验证步骤之前,还包括对所述一系列第二位置聚类簇进行过滤的步骤,所述过滤步骤包括:
将所述一系列第二位置聚类簇中所包含的第二A类序列和第二B类序列的数目之和小于设定值的第二位置聚类簇过滤掉,得到一次过滤后的一系列第二位置聚类簇;
根据所述第二A类序列中的第一位置和第二位置的比对结果所判定的所述第一位置和所述第二位置之间的连接方式,将所述一次过滤后的一系列第二位置聚类簇中与所述连接方式不一致的第二位置聚类簇过滤掉,得到二次过滤后的一系列第二位置聚类簇。
4.根据权利要求3所述的检测方法,其特征在于,所述检测方法在对所述一系列第二位置聚类序列进行过滤步骤后,以及进行所述局部组装验证的步骤之前,还包括PE验证步骤,所述PE验证步骤包括:
对于所述二次过滤后的一系列第二位置聚类簇中的任一第二位置聚类簇来说,提取 所述任一第二位置聚类簇中与其所对应的第一位置和第二位置存在PE关系的序列,若根据所述存在PE关系的序列与所述参考基因组的比对结果所确定的所述第一位置和第二位置之间的连接方式,与所述任一第二位置聚类簇中的序列所确定的所述第一位置和第二位置之间的连接方式一致,则将所述存在PE关系的序列记为结构异常PE支持簇;
当所述结构异常PE支持簇中序列的数目达到设定阈值时,进一步验证所述二次过滤后的一系列第二位置聚类簇中的序列确实支持所述第一位置和第二位置为基因融合位置。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于天津诺禾致源生物信息科技有限公司,未经天津诺禾致源生物信息科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410477669.X/1.html,转载请声明来源钻瓜专利网。
- 同类专利
- 专利分类
G06F 电数字数据处理
G06F19-00 专门适用于特定应用的数字计算或数据处理的设备或方法
G06F19-10 .生物信息学,即计算分子生物学中的遗传或蛋白质相关的数据处理方法或系统
G06F19-12 ..用于系统生物学的建模或仿真,例如:概率模型或动态模型,遗传基因管理网络,蛋白质交互作用网络或新陈代谢作用网络
G06F19-14 ..用于发展或进化的,例如:进化的保存区域决定或进化树结构
G06F19-16 ..用于分子结构的,例如:结构排序,结构或功能关系,蛋白质折叠,结构域拓扑,用结构数据的药靶,涉及二维或三维结构的
G06F19-18 ..用于功能性基因组学或蛋白质组学的,例如:基因型–表型关联,不均衡连接,种群遗传学,结合位置鉴定,变异发生,基因型或染色体组的注释,蛋白质相互作用或蛋白质核酸的相互作用