[发明专利]一种高通量转录组测序数据的分析方法有效
申请号: | 201410422973.4 | 申请日: | 2014-08-26 |
公开(公告)号: | CN104182657A | 公开(公告)日: | 2014-12-03 |
发明(设计)人: | 王月兰;倪受庸;刘劲松;邓彦;庞启波 | 申请(专利权)人: | 江苏华生恒业科技有限公司 |
主分类号: | G06F19/20 | 分类号: | G06F19/20 |
代理公司: | 无 | 代理人: | 无 |
地址: | 224007 江苏省盐城市经济技术*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 通量 转录 序数 分析 方法 | ||
技术领域
本发明属于生物信息技术领域,尤其涉及一种高通量转录组测序数据的分析方法。
背景技术
随着新一代高通量测序技术的快速发展,建立在高通量测序基础上的转录组测序技术已成为目前从全基因组水平研究基因表达和转录组分析的重要手段.转录水平的调控是生物体最主要的调控方式.在深度测序技术出现之前,高通量测定不同基因转录水平的主要手段是基因芯片,它可以对不同组织或不同发育阶段的基因表达差异和模式进行分析,而RNA-Seq技术最基本的应用也是检测基因的表达水平,它对同一样品深度测序可以捕获低表达的基因,而对大量样品同时测序可以获得样品之间的表达差异。与基因芯片数据比较,RNA测序得到的是数字化的表达信号,无需设计探针,能在全基因组范围内以单碱基分辨率检测和量化转录片段,具有灵敏度高、分辨率高和应用范围广等优势。除此之外, 研究人员还可以获得转录本表达丰度、转录起始位点和可变剪切等重要信息。所以,建立在高通量测序基础上的转录组研究已经逐步取代基因芯片技术成为目前从全基因组水平研究基因表达的主流方法。
在对基因组进行测序时,基因组被切割成很多小片段,通过复制、碱基辨识等步骤,我们可以获得这些短序列的碱基序列(测序序列)。然而在切割基因组后,我们无法知道各个测序序列的相对位置。如果没有参考基因组,就只能通过装配技术来得到所测的基因组。如果有一个已被测得的基因组作为参照,这就是一个相对容易的重测序问题。现在我们在生物学研究、个体化医疗中面临的测序问题,绝大部分是或可以近似转化为重测序问题。在重测序问题中,我们要寻找每一个测序序列在参考基因组上的位置或坐标,我们称之为测序序列定位。例如,通过将转录组的测序序列定位至参考基因组序列来测量不同种类的RNA的含量;或者通过将转录组的测序序列定位至参考基因组序列来探测mRNA可变剪切的模式等。
通常的高通量测序数据的定位(Mapping)方法,主要有基于哈氏表(hash)的方法和基于Burrows-Wheeler变换的方法。基于哈氏表(hash)的方法只能处理定长的序列数据,适用于参考序列较短的;如果序列太长(如人的全基因组序列),则需要很大的计算机内存,处理速度也很慢。优点是较好地支持容错率。基于Burrows-Wheeler变换的方法能处理变长的序列数据,但不能支持较大的容错率,否则将丧失速度优势。
由于测序仪器自身的测序误差,实际的高通量测序数据往往有很多的噪声,这就给正确的定位带来很大的困扰。
对于真核基因组情况将更加复杂,由于真核基因是断裂基因,由内含子和外显子构成,转录机制更加复杂。mRNA是按照特定的转录机制由外显子序列拼接而成,也就是说一条转录组测序数据(Read)定位在基因组参考序上可能是不连续的片段,这就为正确定位测序数据、基因转录水平、可变剪接以及基因融合带来更大的难度。
发明内容
本发明目的在于针对现有技术的不足,提供一种高通量转录组测序数据的分析方法,更加有效准确的分析样本当前的基因转录情况,其在分析过程中通过Burrows-Wheeler变换方法定位后,再通过Hash表进行了二次定位。
在本发明的一个实施方案中,所述分析方法的具体步骤如下,实施流程图见附图1:
(1)WGA Alignment方法:获得RNA-Seq的原始数据后,将转录组测序数据以可变长度和步长切成短片段,将转录组测序数据以可变长度和步长切成短片段,并应用Burrows-Wheeler变换方法定位到参考基因组序列上,匹配允许1个碱基的错配,并设定最大允许查找定位的数目,设定有效值1-50;可变长度默认值为30,步长默认值为5,所述可变长度与步长可以根据实际Reads的长度来确定,Reads长度越长,可变长度及步长可以设定得越大,以提高运行效率,步长设定为可变长度的1/6为佳;
(2)对匹配上的测序数据分为节点和数据链,基于参考基因组mRNA注释信息以及匹配度打分进行滤除不可靠节点和数据链,具体步骤如下:
(a)Node确定:将基因组上有Reads覆盖的连续区域定为一个Node,根据设定的覆盖深度保留符合条件的Node,可分别已知基因区最小Read覆盖深度和非已知基因区最小Read覆盖深度,默认值分别为1和4。根据不同测序数据质量可以进行调整,测序深度越大,设定得最小Read覆盖深度以滤除噪声。
(b)Link确定:
I.载入所有形成Link的reads,也就是指单条Read分别定位到基因组的不连续两段以上区域;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于江苏华生恒业科技有限公司;,未经江苏华生恒业科技有限公司;许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410422973.4/2.html,转载请声明来源钻瓜专利网。
- 上一篇:基于屏幕解锁的身份识别方法
- 下一篇:六自由度机械臂姿态监测系统及方法
- 同类专利
- 专利分类
G06F 电数字数据处理
G06F19-00 专门适用于特定应用的数字计算或数据处理的设备或方法
G06F19-10 .生物信息学,即计算分子生物学中的遗传或蛋白质相关的数据处理方法或系统
G06F19-12 ..用于系统生物学的建模或仿真,例如:概率模型或动态模型,遗传基因管理网络,蛋白质交互作用网络或新陈代谢作用网络
G06F19-14 ..用于发展或进化的,例如:进化的保存区域决定或进化树结构
G06F19-16 ..用于分子结构的,例如:结构排序,结构或功能关系,蛋白质折叠,结构域拓扑,用结构数据的药靶,涉及二维或三维结构的
G06F19-18 ..用于功能性基因组学或蛋白质组学的,例如:基因型–表型关联,不均衡连接,种群遗传学,结合位置鉴定,变异发生,基因型或染色体组的注释,蛋白质相互作用或蛋白质核酸的相互作用