[发明专利]一种数据处理方法、装置及系统无效
申请号: | 201210046932.0 | 申请日: | 2012-02-27 |
公开(公告)号: | CN103294702A | 公开(公告)日: | 2013-09-11 |
发明(设计)人: | 李晨;马向晖 | 申请(专利权)人: | 上海淼云文化传播有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 逯长明 |
地址: | 200072 上海市闸北区广*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 数据处理 方法 装置 系统 | ||
技术领域
本发明涉及数据处理领域,特别涉及一种数据处理方法、装置及系统。
背景技术
海量数据是指企业级软件、互联网和云计算等领域,需要处理大容量的数据。目前海量数据处理方案普遍采用为切片分离方案。
上述切片分离方案是指在进行数据存储时,按照切片规则将需要存储的数据进行切片存储,即按照数据属性,将需要存储的数据存储到不同的数据切片中,实现了数据存储的横向扩展,以有效处理海量数据。
虽然所述切片分离方案可以将数据存储至不同的数据切片,但是在存储过程中,未对数据切片中的数据进行去重处理,从而导致数据冗余。并且,随着数据量增加,数据冗余加剧,造成存储空间浪费。因此,急需一种数据处理方法,在数据存储的同时实现数据去重处理,避免数据冗余和存储空间的浪费。
发明内容
本发明所要解决的技术问题是提供一种数据处理方法、装置及系统,用以解决现有技术中无法实现在数据存储的同时实现数据去重处理,避免数据冗余和存储空间浪费的技术问题。
本发明提供了一种数据处理方法,包括:
对待存储数据进行hash算法计算,得出所述待存储数据的关键值;
在预先设定的数据集合中查找是否含有与所述关键值相匹配的关键值,如果是,舍去所述待存储数据,如果否,将所述待存储数据以列式存储方法进行存储,并将所述待存储数据的关键值存储至所述数据集合中。
上述方法,优选地,所述将所述待存储数据以列式存储方法进行存储包括:
将所述待存储数据的数据结构转换成二维数据表的数据结构;
获取所述二维数据表中每列的非空列数据,依据所述二维数据表中列的数据地址顺序将所述获取的非空列数据进行存储。
上述方法,优选地,还包括:
接收数据查询请求,所述数据查询请求包括查询条件;
对所述查询条件进行hash算法计算,得出查询关键值;
在所述数据集合的关键值中,查找是否含有与所述查询关键值相匹配的关键值,如果是,在已存储的列数据中查找与所述查询关键值相对应的列数据,返回查找到的所述列数据及与该列数据对应的行数据,否则,结束本次数据查询。
上述方法,优选地,还包括:
解析已存储数据的数据属性,依据所述数据属性设置与已存储数据相对应的数据节点。
上述方法,优选地,还包括:
接收数据查询请求,所述数据查询请求包括查询条件;
依据所述查询条件,将所述数据节点划分为相关节点、可疑节点及无关节点;
在所述可疑节点中查询与所述查询条件相对应的数据节点,并返回与该数据节点相对应的已存储数据,同时返回与所述相关节点相对应的已存储数据。
上述方法,优选地,还包括:
将返回的数据存储至预先设置的缓存数据集合中,当再次接收到数据查询请求时,判断所述缓存数据集合中是否含有与所述数据查询请求相对应的数据,如果是,在所述缓存数据集合中进行数据查询,如果否,在已存储数据中进行数据查询。
上述方法,优选地,在对待存储数据进行hash算法计算之前,还包括将所述待存储数据存储至预先设定的内存中。
本发明还提供了一种数据处理装置,用于实现上述方法,所述装置包括:
数据计算单元,用于对待存储数据进行hash算法计算,得出所述待存储数据的关键值;
数据查找单元,用于在预先设定的数据集合中查找是否含有与所述关键值相匹配的关键值;
数据去重单元,用于在所述数据查找单元在预先设定的数据集合中查找到与所述关键值相匹配的关键值的情况下,舍去所述待存储数据;
数据存储单元,用于在所述数据查找单元在预先设定的数据集合中未查找到与所述关键值相匹配的关键值的情况下,将所述待存储数据以列式存储方法进行存储,并将所述待存储数据的关键值存储至所述数据集合中。
上述装置,优选地,所述数据存储单元具体用于将所述待存储数据的数据结构转换为二维数据表的数据结构,获取所述二维数据表中每列的非空列数据,依据所述二维数据表中列的数据地址顺序将所述获取的非空列数据进行存储。
上述装置,优选地,还包括接收单元,用于接收数据查询请求,所述数据查询请求包括查询条件,并触发所述数据计算单元;
所述数据计算单元,还用于对所述查询条件进行hash算法计算,得出查询关键值;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海淼云文化传播有限公司,未经上海淼云文化传播有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210046932.0/2.html,转载请声明来源钻瓜专利网。