[发明专利]一种面向海量数据高效取差集的方法有效

申请号：	201510464150.2	申请日：	2015-07-31
公开（公告）号：	CN105069084B	公开（公告）日：	2018-07-31
发明（设计）人：	周华;陈光淙;许华堂	申请（专利权）人：	南威软件股份有限公司
主分类号：	G06F17/30	分类号：	G06F17/30
代理公司：	泉州市文华专利代理有限公司 35205	代理人：	陈雪莹
地址：	362000 福建省泉州市***	国省代码：	福建;35
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明一种面向海量数据高效取差集实现方法，将存储机制与索引机制相结合，实现高效取差集；在进行数据存储时就已经对存储位置进行分核分片规范，减少了获取的数据执行时间，提高了执行效率，同时在数据量不断增大的情况下，可通过增加分核数与分片数进行水平扩展，不会因为数据量增大而在取数据时耗费太多查询时间；而在取差集时，源数据集合与目标数据集合采用位数组的存储模式，存储的都是去重后数据的关键匹配元素，避免了全元素存储，减少了存储空间，避免因数据量过大而导致内存溢出，在取差集匹配时，采用的是基于哈希表的位索引模式，提高了匹配效率，在取差集数据量越大情况下，越能体现性能方面的优势。
搜索关键词：	一种面向海量数据高效取差集方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

1.一种面向海量数据高效取差集实现方法，其特征在于包括如下步骤：步骤1、数据存储及历史数据形成阶段包括若干个数据存储区，每个数据存储区下根据时间轴分类或共性条件设置多个分核，每个分核下根据时间轴分类或共性条件设置多个分片，分核数量及分片数量可根据数据量进行水平扩展，将海量数据根据时间轴分类或共性条件进行分核及分片存储形成历史数据；步骤2、形成源数据位数组集合与目标数据位数组集合阶段根据源数据和目标数据查询条件分别到历史数据相应的分片获取数据组成源数据集合和目标数据集合；对获取的源数据集合与目标数据集合分别进行去重处理，去重后数据的匹配字段采用哈希函数映射到位阵列进行存储，分别提取后续会用于匹配的关键字段进行存储形成位数组集合，其中，源数据位数组集合用来存储源数据集合的关键字段元素，目标数据位数组集合用来存储目标数据集合的关键字段；步骤3、源数据位数组集合与目标数据位数组集合进行位索引匹配取差集阶段循环源数据位数组集合中的元素，通过L个哈希映射函数得到L个值，匹配到目标数据位数组集合中，判断目标数据位数组是否都为1，若全为1，则说明源数据位数组集合中的该元素在目标数据位数组集合中，否则说明源数据位数组集合中的该元素不在目标数据位数组集合中，将目标数据位数组集合中的该元素放到另外一个差集集合中，循环匹配源数据位数组集合所有元素后，得到的差集集合就是源数据集合与目标数据集合的差集，从而实现数据快速匹配取差集。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于南威软件股份有限公司，未经南威软件股份有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201510464150.2/，转载请声明来源钻瓜专利网。

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理
G06F17-00 特别适用于特定功能的数字计算设备或数据处理设备或数据处理方法
G06F17-10 .复杂数学运算的
G06F17-20 .处理自然语言数据的
G06F17-30 .信息检索；及其数据库结构
G06F17-40 .数据的获取和记录
G06F17-50 .计算机辅助设计

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种面向海量数据高效取差集的方法有效

专利文献下载