[发明专利]一种高通量转录组测序数据的分析方法有效

申请号：	201410422973.4	申请日：	2014-08-26
公开（公告）号：	CN104182657A	公开（公告）日：	2014-12-03
发明（设计）人：	王月兰;倪受庸;刘劲松;邓彦;庞启波	申请（专利权）人：	江苏华生恒业科技有限公司
主分类号：	G06F19/20	分类号：	G06F19/20
代理公司：	无	代理人：	无
地址：	224007 江苏省盐城市经济技术***	国省代码：	江苏;32
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种通量转录序数分析方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种高通量转录组测序数据的分析方法，其特征在于，其在分析过程中通过Burrows-Wheeler变换方法定位后，再通过Hash表进行了二次定位。

2.根据权利要求1所述的分析方法，其特征在于，所述分析方法的具体步骤如下：

（1）WGA Alignment方法：获得RNA-Seq的原始数据后，将转录组测序数据以可变长度和步长切成短片段，将转录组测序数据以可变长度和步长切成短片段，并应用Burrows-Wheeler变换方法定位到参考基因组序列上，匹配允许1个碱基的错配，并设定最大允许查找定位的数目；所述可变长度与步长可以根据实际Reads的长度来确定；

（2）对匹配上的测序数据分为节点和数据链，基于参考基因组mRNA注释信息以及匹配度打分进行滤除不可靠节点和数据链，

（3）切割所有匹配的参考基因组序列构成新的有效的重构参考序列，应用hash表进行二次定位，以此提高匹配准确度及速度；

（4）对Reads匹配结果重新定位到原始参考基因组序列上，重复步骤（2），确定Nodes、Link以及Chain，基于基因组注释mRNA信息以及数据链各exon间连接度找到新的mRNA可变剪切，基因融合和新基因，并给出基因表达水平、变异情况的统计信息；

（5）基因Chain和Nodes进行分层展示，并根据不同Node、Link类型给出不同颜色分类标识，

（6）生成各类基因数据报表，并建立索引，实现快速定位。

3.根据权利要求2所述的分析方法，其特征在于，所述步骤（2）中，具体步骤如下：

（a）Node确定：将基因组上有Reads覆盖的连续区域定为一个Node，根据设定的基覆盖Coverage；

（b）Link确定：

I．载入所有形成Link的reads，也就是指单条Read分别定位到基因组的不连续两段以上区域；

II．进行峰值处理，依据聚类分析结果给出Link的起始位置，并根据如下规则进行修正：当Reads覆盖度大于10，以超过50%形成Link的Reads的起始位置进行修正；当Reads覆盖度小于10，以超过70%形成Link的Reads的起始位置进行修正；

III．依据进行基因注释信息和GT-AT法则进行Link起始位置修正，去除边缘可变剪接Nodes的影响，对边缘1-3bp碱基进行exon与exon剪接接头检查，去除重复碱基定位的误差；

VI．小Gap Link的检测：设定最小exon间碱基数目为6，低于6bp的Gap最为删除变异处理，而大于6bp的Gap定义为Gap Link；

（c）Chain确定：连续的Node及Link定义为一个Chain；

I．根据Node及连接Node的Link，给出所有可能的不重复的基因Chain；

II．根据基因注释信息，找出基因区域内的所有可能的基因Chain；找出基因间区域的所有的新基因Chain；

III．滤除不可靠基因Chain：相似基因Chain、重叠基因Chain以及融合基因chain（该基因Chain覆盖区域跨越两个以上基因的区域）按各自规则依次进行滤除；

相似基因Chain滤除规则：序列相似度大于80%的基因进行相似基因Chain检查，将相似基因间的相同基因Chain进行合并，保留不同的基因Chain；

重叠基因Chain滤除规则：如果重叠部分和某一基因的mRNA完全匹配则直接划分到这一基因如果没有完全匹配的则比较所在chain和各个基因的mRNA匹配的长度，基因Chain定位到匹配长度最长的基因；

融合基因Chain滤除规则：对于相邻近基因只保留相同模板链上相同方向的基因融合Chain；重叠基因间的融合基因Chain滤除，根据覆盖度拆分定位到对应的基因上；滤除相同染色体上覆盖范围大于10000的融合基因Chain；支持多基因间融合查找。

4. 根据权利要求2所述的分析方法，其特征在于，所述步骤（3）中，具体步骤如下：

以所有基因组注释基因的mRNA，有Reads覆盖的生成基因chain的序列为基本参考序列；

设定提取序列初始长度为100，再动态计算平均Reads长度值后替换；

从基本参考序列中分别取exon与exon的接头序列、基因Chain的Node与Node间的连接序列，长度等于提取序列长度；去重复追加到重构参考基因组序列，并记录在原始基因组中位置以备还原定位；

从基本参考序列中分别取exon中间序列、基因Chain的Node中间序列，去重复存为重构参考基因组序列，并记录在原始基因组中的位置以备还原定位；

拼接序列时尽量减少重复序段的干扰，根据exon长度以及Node长度调整提取序列的大小；

在重构参考基因组序列中进行去重处理，以降低参考序列大小，提高运行速度；

对测序样本用Hash Alignment方法对重构参考基因组序列进行匹配，可设定最小匹配长度以及最低相似度，默认设置为12及85%。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于江苏华生恒业科技有限公司;，未经江苏华生恒业科技有限公司;许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201410422973.4/1.html，转载请声明来源钻瓜专利网。

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理
G06F19-00 专门适用于特定应用的数字计算或数据处理的设备或方法
G06F19-10 .生物信息学，即计算分子生物学中的遗传或蛋白质相关的数据处理方法或系统
G06F19-12 ..用于系统生物学的建模或仿真，例如：概率模型或动态模型，遗传基因管理网络，蛋白质交互作用网络或新陈代谢作用网络
G06F19-14 ..用于发展或进化的，例如：进化的保存区域决定或进化树结构
G06F19-16 ..用于分子结构的，例如：结构排序，结构或功能关系，蛋白质折叠，结构域拓扑，用结构数据的药靶，涉及二维或三维结构的
G06F19-18 ..用于功能性基因组学或蛋白质组学的，例如：基因型–表型关联，不均衡连接，种群遗传学，结合位置鉴定，变异发生，基因型或染色体组的注释，蛋白质相互作用或蛋白质核酸的相互作用

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种高通量转录组测序数据的分析方法有效

专利文献下载