[发明专利]一种基于MapReduce的DNA序列k-mer频次统计方法有效

专利信息
申请号: 201611033051.X 申请日: 2016-11-22
公开(公告)号: CN106778079B 公开(公告)日: 2019-07-19
发明(设计)人: 谭军;孟光伟 申请(专利权)人: 重庆邮电大学
主分类号: G16B40/00 分类号: G16B40/00
代理公司: 重庆市恒信知识产权代理有限公司 50102 代理人: 刘小红
地址: 400065 重*** 国省代码: 重庆;50
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 mapreduce dna 序列 mer 频次 统计 方法
【说明书】:

发明请求保护一种基于MapReduce的DNA序列k‑mer频次统计方法。该方法在运行MapReduce计算模型的分布式集群环境中对要处理的序列文件进行预处理,去除错误序列;将处理后的序列文件进行哈希处理后作为Map函数的输入,Map函数使用定义的算法计算出k变化范围内的所有k‑mer频次并作为Combine函数的输入;Combine函数对得到的中间结果进行本地合并并将结果作为Reduce函数的输入;Reduce对各Combine节点传送来的key相同的键值对进行合并输出最终结果。本方法能够有效的处理大规模序列数据集,降低处理设备性能要求;同时解决现有方法中I/O开销占总处理时间过大问题,显著提升处理速度。

技术领域

本发明涉及生物信息学领域、大数据处理领域,特别是涉及一种基于MapReduce的DNA序列k-mer频次统计方法。

背景技术

近年来,随着第三代生物测序技术的发展,科研机构和企业所测得各物种生物基因序列呈爆炸式增长。面对海量的生物DNA/RNA序列数据,对这些测得的数据进行快速有效的处理与分析,则对目前的计算机处理能力提出来严峻的挑战。

DNA/RNA序列是生物遗传信息的存储和控制中心,统计DNA/RNA序列中k长子序列的出现频数是一个基础而重要的生物学问题,称之为k-mer频数计数问题。K-mer频数在基因序列组装,重复序列标识,快速序列比对,错误序列检测中有着重要的应用。

在单体分形,模体发现和多序列比对等需要探究序列中块属性的问题上,常常需要将多条序列在对齐条件下统计不同偏移处k变化一段范围内的k-mer频数。传统的统计方法是针对不同的K值,依次统计所有序列中的不同k-mer频数。为解决传统方法中重复计算量大,空间效率底下等问题,张鑫鑫等提出了一种基于逆向遍历的BTKC算法,算法巧妙的利用了上一次k值下k-mer的统计结果,来进行下一个k值的k-mer频数计数,避免重新遍历所有的序列。相比于传统算法,BTKC算法在k值变化很大范围条件下,可以显著的降低算法的时间复杂度,提高处理效率。由于BTKC算法需要统计所有n条序列并将结果加载到内存,为此内存消耗大。且由于需要频繁的将中间结果写入的磁盘,导致算法的I/O开销占总处理时间比例过大。由于上述原因,BTKC算法只能处理少量的DNA序列数据,在处理大量DNA序列数据时,对计算机的性能条件要求过高,且处理效率很不理想。

Hadoop是目前主流的大数据处理平台,其利用分布式计算和存储的原理,能够高效的存储和处理海量数据。MapReduce是Hadoop平台中数据处理模块的核心计算模型和方法,是一种高效的并行程序编程模型与方法,主要用于大规模数据集的处理。

发明内容

本发明旨在解决以上现有技术的问题。提出了一种快速有效的处理海量的DNA序列数据,并且减小计算过程中I/0开销比例过大的问题,降低对计算机性能的要求的基于MapReduce的DNA序列k-mer频次统计方法。

本发明的技术方案如下:

一种基于MapReduce的DNA序列k-mer频次统计方法,其包括以下步骤:

1)输入待处理的DNA序列文件和k-mer计算参数,并进行包括去除错误序列和非DNA编码序列在内的预处理步骤:

2)将预处理后的序列文件进行哈希处理后作为Map函数的输入

3)将Map阶段处理后的结果作为Combine函数输入,Combine函数对中间结果进行合并,并将合并结果作为Reduce函数的输入;

4)运行MapReduce的集群环境先进行Shuffle混洗和Sort排序阶段的处理,即将主键key相同的键值对分到同一个Reduce节点,将合并中间结果在传递到Reduce节点后,运行Reduce函数对所有的键值对进行归约(处理,得到最终结果并输出,即为所处理DNA序列文件中的所有k-mer的频数。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于重庆邮电大学,未经重庆邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201611033051.X/2.html,转载请声明来源钻瓜专利网。

同类专利
专利分类
×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top