[发明专利]一种基于转录组测序数据检测融合基因的方法有效
申请号: | 201611168738.4 | 申请日: | 2016-12-16 |
公开(公告)号: | CN106650254B | 公开(公告)日: | 2018-11-20 |
发明(设计)人: | 程艳兵 | 申请(专利权)人: | 武汉菲沙基因信息有限公司 |
主分类号: | G06F19/20 | 分类号: | G06F19/20 |
代理公司: | 北京轻创知识产权代理有限公司 11212 | 代理人: | 杨立;陈璐 |
地址: | 430075 湖北省武汉市*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 转录 序数 检测 融合 基因 方法 | ||
本发明涉及一种基于转录组测序数据检测融合基因的方法,其包括以下步骤:S1:对样本进行二代转录组测序和三代转录组测序,分别得到二代转录组测序数据和三代转录组测序数据;S2:将三代转录组测序数据与参考基因组进行比对,鉴定可能发生了基因融合的FLNC读序以及可能参与融合的基因对,提取可能发生了基因融合的FLNC读序的序列,并判断融合位置;S3:将所述二代转录组测序数据比对到S2中得到的可能的融合基因FLNC读序,根据比对结果中非一致性成对读序的对数和结合读序的个数,以及所述可能发生了基因融合的FLNC读序的个数,鉴定确实发生了融合的基因对。本发明通过结合三代转录组测序与二代转录组测序来检测融合基因,使得结合二代和三代测序支持证据的融合基因检测结果更为可靠。
技术领域
本发明涉及转录组分析领域,更特别地,涉及一种基于转录组测序数据检测融合基因的方法。
背景技术
基因重排是生物体中遗传物质之间时有发生的现象,由于基因重排常常导致原本不在一个顺反子下的一个或多个基因或基因片段形成融合基因,并作为一个顺反子转录,这将导致某些基因的活化、失活或产生新功能。许多疾病的发生都伴随有融合基因现象,例如,白血病常伴随有bcr/abl、AML1/ETO、CBFβ/MYH11、PML/RARα等融合基因,多种实体瘤中也发现融合基因,非小细胞肺癌中有EML4-ALK,前列腺癌中有SLC45A3-ELK4,横纹肌肉瘤中有PAX3-FOXO1等等。科学研究发现,一些融合基因参与了相关疾病的致病过程,因此,这些融合基因的检测可作为诊断标准之一,甚至可将其作为治疗靶点。
目前,对融合基因的检测一般基于对二代转录组测序数据进行分析来得到。其主要通过比对两种类型的读序(reads)来进行。一种为非一致成对读序(discordant paired-end reads,即,成对的reads分别比对到参与融合的5’伴侣基因和3’伴侣基因),另一种为结合读序(junction reads,即,reads的比对跨越了融合位点)。通过鉴定这两类读序的支持情况,可检测出转录产物中的融合基因。目前基于这类方法已经开发出来的软件很多,包括SOAPfusion、Defuse、SOAPfuse、FusionCatcher、FusionMap、Tophat-fusion、ChimeraScan、Star-fusion等。但是由于转录组的复杂性和二代RNA-seq测序读序读长的限制,短读序比对本身就面临非常大的挑战。参考基因组上的重复序列以及参考基因组本身的不完整,很容易导致对读序比对位置和比对唯一性做出错误判断。为了控制比对错误导致的假阳性,需要设置比较严格的过滤参数来对候选融合基因结果进行过滤,但这样做往往导致很多真阳性结果也被过滤掉。另一方面,二代测序在文库构建过程中会随机产生一些来自不同基因的片段随机连接在一起形成的嵌合读列,采用现有的融合基因检测方法,我们无法区分这些嵌合序列和真正的融合基因序列,这些随机产生的嵌合读列也会被当做融合基因检测出来,造成结果的假阳性。由于上述原因,单纯基于二代RNA-seq测序的融合基因检测方法很难在准确性和假阴性率两个方面做到平衡。
三代转录组测序又称全长转录组测序,其每个读序的长度都远远大于二代转录组测序读长。相比二代测序的短读长读序,三代测序的长读长读序在比对过程中可以更有效地降低比对错误造成的假阳性,但是也无法完全避免这种类型的假阳性。同时,三代转录组测序在文库构建过程中也会随机产生一些来自不同基因的片段随机连接形成的嵌合读序,导致假阳性融合。
因此,需要一种新的检测转录产物中融合基因的方法。
发明内容
为解决以上问题,本发明提供了一种基于转录组测序数据检测融合基因的方法,其包括以下步骤:
S1:对样本进行二代转录组测序和三代转录组测序,分别得到二代转录组测序数据和三代转录组测序数据;
S2:将所述三代转录组测序数据与参考基因组进行比对,鉴定可能发生了基因融合的FLNC读序以及可能参与融合的基因对,提取所述可能发生了基因融合的FLNC读序的序列,并判断融合位置;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于武汉菲沙基因信息有限公司,未经武汉菲沙基因信息有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201611168738.4/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种中医机器辨证系统
- 下一篇:一种医用报告打印终端和方法
- 同类专利
- 专利分类
G06F 电数字数据处理
G06F19-00 专门适用于特定应用的数字计算或数据处理的设备或方法
G06F19-10 .生物信息学,即计算分子生物学中的遗传或蛋白质相关的数据处理方法或系统
G06F19-12 ..用于系统生物学的建模或仿真,例如:概率模型或动态模型,遗传基因管理网络,蛋白质交互作用网络或新陈代谢作用网络
G06F19-14 ..用于发展或进化的,例如:进化的保存区域决定或进化树结构
G06F19-16 ..用于分子结构的,例如:结构排序,结构或功能关系,蛋白质折叠,结构域拓扑,用结构数据的药靶,涉及二维或三维结构的
G06F19-18 ..用于功能性基因组学或蛋白质组学的,例如:基因型–表型关联,不均衡连接,种群遗传学,结合位置鉴定,变异发生,基因型或染色体组的注释,蛋白质相互作用或蛋白质核酸的相互作用