[发明专利]一种基于超长基因组的变异检测方法及检测系统有效
申请号: | 201511005316.0 | 申请日: | 2015-12-28 |
公开(公告)号: | CN105483244B | 公开(公告)日: | 2019-10-22 |
发明(设计)人: | 朱世杰 | 申请(专利权)人: | 武汉菲沙基因信息有限公司 |
主分类号: | C12Q1/6869 | 分类号: | C12Q1/6869;G16B20/20 |
代理公司: | 北京轻创知识产权代理有限公司 11212 | 代理人: | 陈卫 |
地址: | 430075 湖北省武汉市*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明涉及一种基于超长基因组的变异检测算法,简称VariationBlast算法,在得到长序列的情况下,大尺度结构变异通常可以通过序列与参考基因组进行比对来检测到,因为跨越结构变异的序列会产生比对上参考序列的部分片段,然后通过序列部分片段与相对应的参考序列片段之间的比较,结构变异的精确点位可以被检测到,VariationBlast是通过逐次对比对方法来检测每一个序列与参考基因组序列之间的比对,然后把所有代表结构变异的序列进行分类与筛选最后从比对的位点与方向得到可能的结构变异以及它们各自的类型。 | ||
搜索关键词: | 一种 基于 超长 基因组 变异 检测 算法 系统 | ||
【主权项】:
1.一种基于超长基因组的变异检测方法,其特征在于,包括以下步骤:S1、采用局部序列比对算法,检测出测序片段和参考序列间存在的所有匹配,得到局部匹配事件,每一个局部匹配事件均包括测序片段和参考序列上的参考片段;S2、将所有局部匹配事件中的测序片段按照比对至参考序列的位置进行排序,将测序片段比对至参考序列上的位置重叠或顺次相连的局部匹配事件分到一个组;S3、对每一个组内的局部匹配事件按照不同的排序方式进行评分,建立一个用来表示每一个组内的所有局部匹配事件之间不同的排序方式的图形模型,根据评分情况确定每一组内的局部匹配事件的最佳排序方式;S4、按照最佳排序方式将每一个组内的局部匹配事件中的测序片段进行串联,一个组得到一个测序序列read;S5、将每一组的测序序列read和参考序列进行对比,在测序序列read上和参考序列不匹配的区域添加gap区域,在参考序列上和测序序列read不匹配的区域添加gap区域,用于使测序序列read和参考序列的匹配区域的位置完全对应;S6、对添加了gap区域后的最终测序序列进行结构变异检测;其中,所述步骤S3的具体实现为:S3.1、将每个组内的局部匹配事件中的测序片段按照比对至参考序列的位置进行排序,所有的局部匹配事件按照位置从前到后依次排列;S3.2、按照所有的局部匹配事件均可以与位置排在其后的局部匹配事件连接的条件,按照所有的可能性建立排序方式,构建有向非循环图形模型;S3.3、设图形模型中,在前局部匹配事件和在后局部匹配事件之间的关系为边e,则每个边e的减分Length(e)=P(e)–R(e),一个边e的减分越少,则评分越高;其中,P(e)代表边e的减分、R(e)代表边e的得分;R(e)=PID*len,PID在后的局部匹配事件的匹配质量,len是在后局部匹配事件的长度;P(e)=α*P_skip(e)+β*(P_ext(e)+P_sep(e));α和β为权重系数,可根据所分析的物种设定不同的值;跳过中间节点的边的减分P_skip(e)=min(PIDi*leni),其中i为所有被跳过的局部对比序列的序号,边e有线性连接和非线性连接两种情况,若两个局部匹配事件中测序片段比对至参考序列的位置相邻则属于线性连接,不相邻则属于非线性连接,P_ext(e)表示边e是线性连接时,测序片段和参考序列无法比对的区域,P_ext(e)=PIDi→j*leni→j,i和j代表没有比上参考序列的起始和终止位点;P_sep(e)表示边e是非线性连接时,测序片段和参考序列无法比对的区域,P_sep(e)=PIDi→j*leni→j,i和j代表没有比上参考序列的起始和终止位点;不同的排序方式组合成的测序序列减分为Length(p)=Σe∈pLength(e),一种排序方式测序序列的减分越小,则评分越高。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于武汉菲沙基因信息有限公司,未经武汉菲沙基因信息有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201511005316.0/,转载请声明来源钻瓜专利网。