[发明专利]一种高通量转录组测序数据的分析方法有效

专利信息
申请号: 201410422973.4 申请日: 2014-08-26
公开(公告)号: CN104182657A 公开(公告)日: 2014-12-03
发明(设计)人: 王月兰;倪受庸;刘劲松;邓彦;庞启波 申请(专利权)人: 江苏华生恒业科技有限公司
主分类号: G06F19/20 分类号: G06F19/20
代理公司: 代理人:
地址: 224007 江苏省盐城市经济技术*** 国省代码: 江苏;32
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 通量 转录 序数 分析 方法
【权利要求书】:

1.一种高通量转录组测序数据的分析方法,其特征在于,其在分析过程中通过Burrows-Wheeler变换方法定位后,再通过Hash表进行了二次定位。

2.根据权利要求1所述的分析方法,其特征在于,所述分析方法的具体步骤如下:

(1)WGA  Alignment方法:获得RNA-Seq的原始数据后,将转录组测序数据以可变长度和步长切成短片段,将转录组测序数据以可变长度和步长切成短片段,并应用Burrows-Wheeler变换方法定位到参考基因组序列上,匹配允许1个碱基的错配,并设定最大允许查找定位的数目;所述可变长度与步长可以根据实际Reads的长度来确定;

(2)对匹配上的测序数据分为节点和数据链,基于参考基因组mRNA注释信息以及匹配度打分进行滤除不可靠节点和数据链,

(3)切割所有匹配的参考基因组序列构成新的有效的重构参考序列,应用hash表进行二次定位,以此提高匹配准确度及速度;

(4)对Reads匹配结果重新定位到原始参考基因组序列上,重复步骤(2),确定Nodes、Link以及Chain,基于基因组注释mRNA信息以及数据链各exon间连接度找到新的mRNA可变剪切,基因融合和新基因,并给出基因表达水平、变异情况的统计信息;

(5)基因Chain和Nodes进行分层展示,并根据不同Node、Link类型给出不同颜色分类标识,

(6)生成各类基因数据报表,并建立索引,实现快速定位。

3.根据权利要求2所述的分析方法,其特征在于,所述步骤(2)中,具体步骤如下:

(a)Node确定:将基因组上有Reads覆盖的连续区域定为一个Node,根据设定的基覆盖Coverage;

(b)Link确定:

I.载入所有形成Link的reads,也就是指单条Read分别定位到基因组的不连续两段以上区域;

II.进行峰值处理,依据聚类分析结果给出Link的起始位置,并根据如下规则进行修正:当Reads覆盖度大于10,以超过50%形成Link的Reads的起始位置进行修正;当Reads覆盖度小于10,以超过70%形成Link的Reads的起始位置进行修正; 

III.依据进行基因注释信息和GT-AT法则进行Link起始位置修正,去除边缘可变剪接Nodes的影响,对边缘1-3bp碱基进行exon与exon剪接接头检查,去除重复碱基定位的误差;

VI.小Gap Link的检测:设定最小exon间碱基数目为6,低于6bp的Gap最为删除变异处理,而大于6bp的Gap定义为Gap Link;

(c)Chain确定:连续的Node及Link定义为一个Chain;

I.根据Node及连接Node的Link,给出所有可能的不重复的基因Chain;

II.根据基因注释信息,找出基因区域内的所有可能的基因Chain;找出基因间区域的所有的新基因Chain;

III.滤除不可靠基因Chain:相似基因Chain、重叠基因Chain以及融合基因chain(该基因Chain覆盖区域跨越两个以上基因的区域)按各自规则依次进行滤除;

相似基因Chain滤除规则:序列相似度大于80%的基因进行相似基因Chain检查,将相似基因间的相同基因Chain进行合并,保留不同的基因Chain;

重叠基因Chain滤除规则:如果重叠部分和某一基因的mRNA完全匹配 则直接划分到这一基因 如果没有完全匹配的 则比较所在chain和各个基因的mRNA匹配的长度,基因Chain定位到匹配长度最长的基因;

融合基因Chain滤除规则:对于相邻近基因只保留相同模板链上相同方向的基因融合Chain;重叠基因间的融合基因Chain滤除,根据覆盖度拆分定位到对应的基因上;滤除相同染色体上覆盖范围大于10000的融合基因Chain;支持多基因间融合查找。

4. 根据权利要求2所述的分析方法,其特征在于,所述步骤(3)中,具体步骤如下:

以所有基因组注释基因的mRNA,有Reads覆盖的生成基因chain的序列为基本参考序列;

设定提取序列初始长度为100,再动态计算平均Reads长度值后替换;

从基本参考序列中分别取exon与exon的接头序列、基因Chain的Node与Node间的连接序列,长度等于提取序列长度;去重复追加到重构参考基因组序列,并记录在原始基因组中位置以备还原定位;

从基本参考序列中分别取exon中间序列、基因Chain的Node中间序列,去重复存为重构参考基因组序列,并记录在原始基因组中的位置以备还原定位;

拼接序列时尽量减少重复序段的干扰,根据exon长度以及Node长度调整提取序列的大小;

在重构参考基因组序列中进行去重处理,以降低参考序列大小,提高运行速度;

对测序样本用Hash Alignment方法对重构参考基因组序列进行匹配,可设定最小匹配长度以及最低相似度,默认设置为12及85%。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于江苏华生恒业科技有限公司;,未经江苏华生恒业科技有限公司;许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201410422973.4/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top