[发明专利]一种基于MapReduce的DNA序列k-mer频次统计方法有效

申请号：	201611033051.X	申请日：	2016-11-22
公开（公告）号：	CN106778079B	公开（公告）日：	2019-07-19
发明（设计）人：	谭军;孟光伟	申请（专利权）人：	重庆邮电大学
主分类号：	G16B40/00	分类号：	G16B40/00
代理公司：	重庆市恒信知识产权代理有限公司 50102	代理人：	刘小红
地址：	400065 重***	国省代码：	重庆;50
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于 mapreduce dna 序列 mer 频次统计方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于MapReduce的DNA序列k-mer频次统计方法，其特征在于，包括以下步骤：

1)输入待处理的DNA序列文件和k-mer计算参数，并进行包括去除错误序列和非DNA编码序列在内的预处理步骤：

2)将预处理后的序列文件进行哈希处理后作为Map函数输入；

3)将Map阶段的结果作为Combine函数输入，Combine函数对中间结果进行合并，本地合并即Map处理的节点上得到中间结果，继续在这个节点上进行Combine阶段处理，Combine表示进行中间结果合并，并将合并中间结果作为Reduce函数的输入；

4)运行MapReduce的集群环境先进行Shuffle混洗和Sort排序阶段的处理，即将主键key相同的键值对分到同一个Reduce节点，将合并中间结果传递到Reduce节点后，运行Reduce函数对所有的键值对进行归约处理，得到最终结果并输出，即为所处理DNA序列文件中的所有k-mer的频数。

2.根据权利要求1所述的基于MapReduce的DNA序列k-mer频次统计方法，其特征在于，所述步骤1)的预处理步骤还包括：输入要处理的DNA序列文件和k-mer计算参数，运行MapReduce并行计算模型的集群环境自动将输入的DNA序列文件切割成一定大小的数据块，均分到各个节点上。

3.根据权利要求2所述的基于MapReduce的DNA序列k-mer频次统计方法，其特征在于，所述步骤1)输入待处理的DNA序列文件和k-mer计算参数，并进行包括去除错误序列和非DNA编码序列在内的预处理步骤具体包括：

接收用户输入的需要处理的DNA序列文件和k-mer中k的变化范围参数，起始值设为k₁，终值设为k₂，有k₁≤k≤k₂；

节点对分配到本节点上的若干序列文件进行读取，建立序列文件对应的本地文件，按行依次读取序列文件中的序列数据，若读取的行序列数据第1列为字符集合{A，G，C，T}中的某一字符且除第一列外其它列中含有字符集合{A，G，C，T}以外的任意字符，则将此行视为错误序列数据；若读取的行序列数据中第1列字符为字符集合{A，G，C，T}以外的任意字符或数字，则视为非DNA编码序列；错误序列和非DNA编码序列均丢弃，不做任何处理，若所读取的行序列数据所有的列均为字符集合{A，G，C，T}中任意字符，则视为正确序列，将该行数据写入到序列文件对应的副本中，读写完毕后，将原序列文件删除。

4.根据权利要求3所述的基于MapReduce的DNA序列k-mer频次统计方法，其特征在于，所述步骤2)将预处理后的序列文件进行哈希处理后进行Map处理的步骤包括：

A1、将步骤1)处理后的序列文件中每一行数据进行哈希处理，表示为键值对<key1,value1>的形式，其中key1为文本文件中每行的字符偏移量，value1为此行的序列内容；

A2、初始化空链表R，开始计算当k值在k₂-k₁之间时递减时的k-mer频数；

A3、得到k在所有取值范围下的对应的k-mer及其对应频数，结果以<key2,value2>形式表示。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于重庆邮电大学，未经重庆邮电大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201611033051.X/1.html，转载请声明来源钻瓜专利网。

上一篇：基于kendall相关系数的DNA序列相似性比对方法
下一篇：一种中药方剂分析方法及实现该方法的系统

同类专利

专利分类

G 物理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于MapReduce的DNA序列k-mer频次统计方法有效

专利文献下载