[发明专利]一种面向大数据的特征提取并行处理方法无效
申请号: | 201310487250.8 | 申请日: | 2013-10-17 |
公开(公告)号: | CN103577160A | 公开(公告)日: | 2014-02-12 |
发明(设计)人: | 刘镇;焦弘杰;吕超;钱萍 | 申请(专利权)人: | 江苏科技大学 |
主分类号: | G06F9/38 | 分类号: | G06F9/38 |
代理公司: | 南京经纬专利商标代理有限公司 32200 | 代理人: | 楼高潮 |
地址: | 212003*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 面向 数据 特征 提取 并行 处理 方法 | ||
技术领域
本发明属于大数据处理技术领域,涉及一种特征提取的方法,更具体是涉及一种面向大数据的特征提取并行处理方法。
技术背景
随着大数据时代的来临,如何快速处理大数据,并提取出有效信息已经成为IT行业前沿性的研究热点。“大数据”是指一个体量特别大,数据类别多且要求处理速度足够快的数据集,并且这样的数据集无法用传统数据库工具对其内容进行提取和管理。
根据对现有专利资料的检索,目前对大数据的处理方法主要有:提高CPU核数量、建立分布式集群系统和优化并行算法等方面。但由于这些方法都仅局限于依赖CPU的运算处理能力,加之CPU核的数量有限、建立分布式集群系统成本较高等因素的制约,对大数据的处理方法和能力仍有待于进一步创新和提高。
当前,特征提取技术在图像处理、模式识别和网络入侵检测等方面的运用越来越广泛,尤其在大数据环境下特征提取的效率已经成为制约快速处理数据能力的瓶颈。
发明内容
本发明的目的是针对大数据环境下,传统的计算机对数据的特征提取主要依靠CPU来串行完成的现状,提出一种面向大数据的特征提取并行处理方法,使得计算机对特征提取数据处理的速度更快,处理能力更强。
为了实现上述目的,本发明解决上述问题的技术方案是一种面向大数据的特征提取并行处理方法,该方法在硬件允许处理范围内处理大数据时,根据所要处理的任务数据和特征数据,构建一个可并行化操作的矩阵数组,通过采用并行处理数组的方式,对数据进行多线程并发执行特征匹配,提取出符合特征的数据,并统计成功提取数据的次数。
根据上述的技术方案,本发明采用并行处理的方法是基于CUDA的架构,利用GPU并行计算能力实现的。
上述的任务数据需要从CPU传递到GPU的存储单元中,以便使用GPU进行并行运算。
针对上述在大数据环境下的并行计算,实时对缓存区中的数据进行特征提取的速率大于或等于数据流的发送速率,并且根据数据流的发送速率自适应的调整特征提取的并发宽度,保证动态数据流处理的可并发控制。
上述的特征提取并行处理方法,结合GPU硬件特性,在其处理能力的范围内,匹配算法采取的利用可并行化矩阵数组处理数据的方法包含以下两个步骤,且均并行执行。
步骤1:将任务数据和特征数据每个字符依次进行并行匹配,形成一个有效的矩阵数组。
步骤2:根据特征数据的长度,并行处理有效数组,得出正确匹配的结果,即成功特征匹配的次数。
上述的特征数据的提取过程,为减少程序运行时不断读取特征数据的次数,进一步提高运算速度,将使用常量内存来存储特征数据key,所述的特征数据需要从CPU传递到GPU的常量内存中。常量内存的访问限制为只读,在第一次从常量内存的某个地址上读取特征数据后,当其他线程请求同一个地址时,将直接从缓存中读取特征数据,从而节省时间。
将上述的任务数据和特征数据每个字符依次进行并行匹配,形成一个有效的矩阵数组,即根据任务数据长度STRLEN和特征数据长度KEYLEN,将任务数据和特征数据的每个字符依次进行并行匹配,形成一个KEYLEN*STRLEN的“01”矩阵数组,即用矩阵数组的第i行分别与特征数据第i个字符作比较,相同则记为“1”,不同则记为“0”。
根据上述的特征数据长度KEYLEN,对有效数组的并行处理的方法为:依次并行处理(STRLEN-KEYLEN+1)个KEYLEN*KEYLEN的小数组矩阵,判断它的对角线数值是否全为“1”,即先判断小数组矩阵对角线的第一位数值是否为“1”,如果不是“1”(而是“0”),则不用继续判断下一位数值,直接转向判断下一个小数组矩阵;如果是“1”,则继续判断对角线上的下一位数值是否为“1”,直到对角线数值全部为“1”,则有一个成功的特征提取,记录成功匹配一次。
附图说明
附图1为本发明中针对大数据环境的特征数据提取算法的流程图。
附图2为本发明中针对大数据环境的特征数据提取算法具体实施方式流程图。
附图3为本发明中任务数据匹配特征数据中字符的结构示意图。
附图4为本发明中利用划分数组的方法,并行处理“01”矩阵数组的结构示意图。
附图5为本发明中并行处理矩阵数组的算法流程图。
具体实施方式
下面结合附图对本发明的内容作进一步的详细介绍。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于江苏科技大学,未经江苏科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310487250.8/2.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置