[发明专利]一种基于转录组测序数据检测融合基因的方法有效
申请号: | 201611168738.4 | 申请日: | 2016-12-16 |
公开(公告)号: | CN106650254B | 公开(公告)日: | 2018-11-20 |
发明(设计)人: | 程艳兵 | 申请(专利权)人: | 武汉菲沙基因信息有限公司 |
主分类号: | G06F19/20 | 分类号: | G06F19/20 |
代理公司: | 北京轻创知识产权代理有限公司 11212 | 代理人: | 杨立;陈璐 |
地址: | 430075 湖北省武汉市*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 转录 序数 检测 融合 基因 方法 | ||
1.一种基于转录组测序数据检测融合基因的方法,其特征在于,包括以下步骤:
S1:对样本进行二代转录组测序和三代转录组测序,分别得到二代转录组测序数据和三代转录组测序数据;
S2:将所述三代转录组测序数据与参考基因组进行比对,鉴定可能发生了基因融合的FLNC读序以及可能参与融合的基因对,提取所述可能发生了基因融合的FLNC读序的序列,并判断融合位置;
S3:将所述二代转录组测序数据比对到S2中得到的可能的融合基因FLNC读序,根据比对结果中非一致性成对读序的对数和结合读序的个数,以及所述可能发生了基因融合的FLNC读序的个数,鉴定确实发生了融合的基因对。
2.根据权利要求1所述的方法,其特征在于,S2包括以下步骤:
S2.1:将所述三代转录组测序数据与参考基因组注释文件进行比对,得到分段比对到参考基因组上两个不同位置的FLNC读序;
S2.2:判断所述参考基因组上两个不同位置以及所述FLNC读序上与所述两个不同位置对应的片段是否满足融合基因判定条件,当满足所有所述融合基因判定条件时,则将所述FLNC判定为可能发生了基因融合的FLNC读序并得到可能参与融合的基因对,提取所述可能发生了基因融合的FLNC读序的序列,并判断融合位置。
3.根据权利要求2所述的方法,其特征在于,所述融合基因判定条件为:
1)所述参考基因组上的两个不同位置分别对应所述FLNC读序的5’片段和3’片段;
2)所述5’片段和3’片段在所述FLNC读序上的位置满足不超过最大重叠长度和最大间隔长度,并且不小于最小总长度;
3)所述5’片段和3’片段在所述参考基因组上比对满足最低比对一致性;
4)所述参考基因组上的两个不同位置满足以下条件之一:a、处于不同染色体上;b、处于同一染色体上但方向相反;c、处于同一染色体上并且方向相同,但是距离超过基因组注释的最大内含子长;以及
5)所述参考基因组上的两个不同位置处有基因注释信息,并且根据所述基因注释信息可确定所述参考基因组上的两个不同位置的基因注释结构分别与其对应的所述5’片段和3’片段的基因结构一致。
4.根据权利要求3所述的方法,其特征在于,所述最大重叠长度和最大间隔长度均为5-20bp,所述最小总长度为所述FLNC读序长度的10-20%,所述最低比对一致性为80-95%,所述最大内含子长度为50kb。
5.根据权利要求1-4中任一项所述的方法,其特征在于,S3包括以下步骤:
S3.1:将所述二代转录组测序数据与所述可能发生了基因融合的FLNC读序进行比对,针对每个所述可能发生了基因融合的FLNC读序鉴定非一致性成对读序和结合读序;
S3.2:当支持S2中鉴定的可能参与融合的基因对的所述可能发生了基因融合的FLNC读序的个数和所述结合读序的个数满足判定最小个数,并且所述非一致性成对读序的对数满足判定最小对数时,判定所述可能参与融合的基因对发生了融合。
6.根据权利要求5所述的方法,其特征在于,所述可能发生了基因融合的FLNC读序的判定最小个数为1个。
7.根据权利要求5所述的方法,其特征在于,所述结合读序的判定最小个数为1个。
8.根据权利要求5所述的方法,其特征在于,所述非一致性成对读序的判定最小对数为1对。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于武汉菲沙基因信息有限公司,未经武汉菲沙基因信息有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201611168738.4/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种中医机器辨证系统
- 下一篇:一种医用报告打印终端和方法
- 同类专利
- 专利分类
G06F 电数字数据处理
G06F19-00 专门适用于特定应用的数字计算或数据处理的设备或方法
G06F19-10 .生物信息学,即计算分子生物学中的遗传或蛋白质相关的数据处理方法或系统
G06F19-12 ..用于系统生物学的建模或仿真,例如:概率模型或动态模型,遗传基因管理网络,蛋白质交互作用网络或新陈代谢作用网络
G06F19-14 ..用于发展或进化的,例如:进化的保存区域决定或进化树结构
G06F19-16 ..用于分子结构的,例如:结构排序,结构或功能关系,蛋白质折叠,结构域拓扑,用结构数据的药靶,涉及二维或三维结构的
G06F19-18 ..用于功能性基因组学或蛋白质组学的,例如:基因型–表型关联,不均衡连接,种群遗传学,结合位置鉴定,变异发生,基因型或染色体组的注释,蛋白质相互作用或蛋白质核酸的相互作用