[发明专利]一种基于MapReduce的DNA序列k-mer频次统计方法有效

专利信息
申请号: 201611033051.X 申请日: 2016-11-22
公开(公告)号: CN106778079B 公开(公告)日: 2019-07-19
发明(设计)人: 谭军;孟光伟 申请(专利权)人: 重庆邮电大学
主分类号: G16B40/00 分类号: G16B40/00
代理公司: 重庆市恒信知识产权代理有限公司 50102 代理人: 刘小红
地址: 400065 重*** 国省代码: 重庆;50
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 mapreduce dna 序列 mer 频次 统计 方法
【权利要求书】:

1.一种基于MapReduce的DNA序列k-mer频次统计方法,其特征在于,包括以下步骤:

1)输入待处理的DNA序列文件和k-mer计算参数,并进行包括去除错误序列和非DNA编码序列在内的预处理步骤:

2)将预处理后的序列文件进行哈希处理后作为Map函数输入;

3)将Map阶段的结果作为Combine函数输入,Combine函数对中间结果进行合并,本地合并即Map处理的节点上得到中间结果,继续在这个节点上进行Combine阶段处理,Combine表示进行中间结果合并,并将合并中间结果作为Reduce函数的输入;

4)运行MapReduce的集群环境先进行Shuffle混洗和Sort排序阶段的处理,即将主键key相同的键值对分到同一个Reduce节点,将合并中间结果传递到Reduce节点后,运行Reduce函数对所有的键值对进行归约处理,得到最终结果并输出,即为所处理DNA序列文件中的所有k-mer的频数。

2.根据权利要求1所述的基于MapReduce的DNA序列k-mer频次统计方法,其特征在于,所述步骤1)的预处理步骤还包括:输入要处理的DNA序列文件和k-mer计算参数,运行MapReduce并行计算模型的集群环境自动将输入的DNA序列文件切割成一定大小的数据块,均分到各个节点上。

3.根据权利要求2所述的基于MapReduce的DNA序列k-mer频次统计方法,其特征在于,所述步骤1)输入待处理的DNA序列文件和k-mer计算参数,并进行包括去除错误序列和非DNA编码序列在内的预处理步骤具体包括:

接收用户输入的需要处理的DNA序列文件和k-mer中k的变化范围参数,起始值设为k1,终值设为k2,有k1≤k≤k2

节点对分配到本节点上的若干序列文件进行读取,建立序列文件对应的本地文件,按行依次读取序列文件中的序列数据,若读取的行序列数据第1列为字符集合{A,G,C,T}中的某一字符且除第一列外其它列中含有字符集合{A,G,C,T}以外的任意字符,则将此行视为错误序列数据;若读取的行序列数据中第1列字符为字符集合{A,G,C,T}以外的任意字符或数字,则视为非DNA编码序列;错误序列和非DNA编码序列均丢弃,不做任何处理,若所读取的行序列数据所有的列均为字符集合{A,G,C,T}中任意字符,则视为正确序列,将该行数据写入到序列文件对应的副本中,读写完毕后,将原序列文件删除。

4.根据权利要求3所述的基于MapReduce的DNA序列k-mer频次统计方法,其特征在于,所述步骤2)将预处理后的序列文件进行哈希处理后进行Map处理的步骤包括:

A1、将步骤1)处理后的序列文件中每一行数据进行哈希处理,表示为键值对<key1,value1>的形式,其中key1为文本文件中每行的字符偏移量,value1为此行的序列内容;

A2、初始化空链表R,开始计算当k值在k2-k1之间时递减时的k-mer频数;

A3、得到k在所有取值范围下的对应的k-mer及其对应频数,结果以<key2,value2>形式表示。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于重庆邮电大学,未经重庆邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201611033051.X/1.html,转载请声明来源钻瓜专利网。

同类专利
专利分类
×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top