[发明专利]一种高通量转录组测序数据的分析方法有效
申请号: | 201410422973.4 | 申请日: | 2014-08-26 |
公开(公告)号: | CN104182657A | 公开(公告)日: | 2014-12-03 |
发明(设计)人: | 王月兰;倪受庸;刘劲松;邓彦;庞启波 | 申请(专利权)人: | 江苏华生恒业科技有限公司 |
主分类号: | G06F19/20 | 分类号: | G06F19/20 |
代理公司: | 无 | 代理人: | 无 |
地址: | 224007 江苏省盐城市经济技术*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 通量 转录 序数 分析 方法 | ||
1.一种高通量转录组测序数据的分析方法,其特征在于,其在分析过程中通过Burrows-Wheeler变换方法定位后,再通过Hash表进行了二次定位。
2.根据权利要求1所述的分析方法,其特征在于,所述分析方法的具体步骤如下:
(1)WGA Alignment方法:获得RNA-Seq的原始数据后,将转录组测序数据以可变长度和步长切成短片段,将转录组测序数据以可变长度和步长切成短片段,并应用Burrows-Wheeler变换方法定位到参考基因组序列上,匹配允许1个碱基的错配,并设定最大允许查找定位的数目;所述可变长度与步长可以根据实际Reads的长度来确定;
(2)对匹配上的测序数据分为节点和数据链,基于参考基因组mRNA注释信息以及匹配度打分进行滤除不可靠节点和数据链,
(3)切割所有匹配的参考基因组序列构成新的有效的重构参考序列,应用hash表进行二次定位,以此提高匹配准确度及速度;
(4)对Reads匹配结果重新定位到原始参考基因组序列上,重复步骤(2),确定Nodes、Link以及Chain,基于基因组注释mRNA信息以及数据链各exon间连接度找到新的mRNA可变剪切,基因融合和新基因,并给出基因表达水平、变异情况的统计信息;
(5)基因Chain和Nodes进行分层展示,并根据不同Node、Link类型给出不同颜色分类标识,
(6)生成各类基因数据报表,并建立索引,实现快速定位。
3.根据权利要求2所述的分析方法,其特征在于,所述步骤(2)中,具体步骤如下:
(a)Node确定:将基因组上有Reads覆盖的连续区域定为一个Node,根据设定的基覆盖Coverage;
(b)Link确定:
I.载入所有形成Link的reads,也就是指单条Read分别定位到基因组的不连续两段以上区域;
II.进行峰值处理,依据聚类分析结果给出Link的起始位置,并根据如下规则进行修正:当Reads覆盖度大于10,以超过50%形成Link的Reads的起始位置进行修正;当Reads覆盖度小于10,以超过70%形成Link的Reads的起始位置进行修正;
III.依据进行基因注释信息和GT-AT法则进行Link起始位置修正,去除边缘可变剪接Nodes的影响,对边缘1-3bp碱基进行exon与exon剪接接头检查,去除重复碱基定位的误差;
VI.小Gap Link的检测:设定最小exon间碱基数目为6,低于6bp的Gap最为删除变异处理,而大于6bp的Gap定义为Gap Link;
(c)Chain确定:连续的Node及Link定义为一个Chain;
I.根据Node及连接Node的Link,给出所有可能的不重复的基因Chain;
II.根据基因注释信息,找出基因区域内的所有可能的基因Chain;找出基因间区域的所有的新基因Chain;
III.滤除不可靠基因Chain:相似基因Chain、重叠基因Chain以及融合基因chain(该基因Chain覆盖区域跨越两个以上基因的区域)按各自规则依次进行滤除;
相似基因Chain滤除规则:序列相似度大于80%的基因进行相似基因Chain检查,将相似基因间的相同基因Chain进行合并,保留不同的基因Chain;
重叠基因Chain滤除规则:如果重叠部分和某一基因的mRNA完全匹配 则直接划分到这一基因 如果没有完全匹配的 则比较所在chain和各个基因的mRNA匹配的长度,基因Chain定位到匹配长度最长的基因;
融合基因Chain滤除规则:对于相邻近基因只保留相同模板链上相同方向的基因融合Chain;重叠基因间的融合基因Chain滤除,根据覆盖度拆分定位到对应的基因上;滤除相同染色体上覆盖范围大于10000的融合基因Chain;支持多基因间融合查找。
4. 根据权利要求2所述的分析方法,其特征在于,所述步骤(3)中,具体步骤如下:
以所有基因组注释基因的mRNA,有Reads覆盖的生成基因chain的序列为基本参考序列;
设定提取序列初始长度为100,再动态计算平均Reads长度值后替换;
从基本参考序列中分别取exon与exon的接头序列、基因Chain的Node与Node间的连接序列,长度等于提取序列长度;去重复追加到重构参考基因组序列,并记录在原始基因组中位置以备还原定位;
从基本参考序列中分别取exon中间序列、基因Chain的Node中间序列,去重复存为重构参考基因组序列,并记录在原始基因组中的位置以备还原定位;
拼接序列时尽量减少重复序段的干扰,根据exon长度以及Node长度调整提取序列的大小;
在重构参考基因组序列中进行去重处理,以降低参考序列大小,提高运行速度;
对测序样本用Hash Alignment方法对重构参考基因组序列进行匹配,可设定最小匹配长度以及最低相似度,默认设置为12及85%。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于江苏华生恒业科技有限公司;,未经江苏华生恒业科技有限公司;许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410422973.4/1.html,转载请声明来源钻瓜专利网。
- 上一篇:基于屏幕解锁的身份识别方法
- 下一篇:六自由度机械臂姿态监测系统及方法
- 同类专利
- 专利分类
G06F 电数字数据处理
G06F19-00 专门适用于特定应用的数字计算或数据处理的设备或方法
G06F19-10 .生物信息学,即计算分子生物学中的遗传或蛋白质相关的数据处理方法或系统
G06F19-12 ..用于系统生物学的建模或仿真,例如:概率模型或动态模型,遗传基因管理网络,蛋白质交互作用网络或新陈代谢作用网络
G06F19-14 ..用于发展或进化的,例如:进化的保存区域决定或进化树结构
G06F19-16 ..用于分子结构的,例如:结构排序,结构或功能关系,蛋白质折叠,结构域拓扑,用结构数据的药靶,涉及二维或三维结构的
G06F19-18 ..用于功能性基因组学或蛋白质组学的,例如:基因型–表型关联,不均衡连接,种群遗传学,结合位置鉴定,变异发生,基因型或染色体组的注释,蛋白质相互作用或蛋白质核酸的相互作用