[发明专利]更新地理信息数据增量的方法及装置在审
申请号: | 201510846820.7 | 申请日: | 2015-11-26 |
公开(公告)号: | CN105528391A | 公开(公告)日: | 2016-04-27 |
发明(设计)人: | 舒彬;李蕴;林涛;刘凤成;孙昕;张欣;马雪峰;张凯;程林;刘俊勇;吴振升;管轶众 | 申请(专利权)人: | 国网北京市电力公司;国家电网公司;北京电力经济技术研究院;国网数通(北京)科技有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京康信知识产权代理有限责任公司 11240 | 代理人: | 韩建伟;张永明 |
地址: | 100031 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 更新 地理信息 数据 增量 方法 装置 | ||
技术领域
本发明涉及数据处理领域,具体而言,涉及一种更新地理信息数据增量的方法及 装置。
背景技术
关联规则挖掘作为数据挖掘的一个重要领域,用于发现大量数据中项集之间的关 联性,在各个领域发挥着不可替代的作用。目前,随着信息技术的进一步发展,在国 民经济的各个领域积累的数据量越来越大,我们迎来了大数据的时代。在大数据的实 际应用中,关联规则挖掘的对象往往是一个庞大的集中式或分布式的数据源。如果采 用单机进行关联规则挖掘,存储能力和挖掘效率势必成为挖掘过程中的瓶颈,从而不 能满足大数据挖掘的需求。另一方面,在很多实际的数据挖掘应用中,往往还存在增 量更新的问题。很多应用领域的数据库都处在不断更新中,从而导致原有挖掘出来的 模式失去作用或产生新的模式。
针对上述的问题,目前尚未提出有效的解决方案。
发明内容
本发明实施例提供了一种更新地理信息数据增量的方法及装置,以至少解决相关 技术中地理信息的数据更新效率低的技术问题。
根据本发明实施例的一个方面,提供了一种更新地理信息数据增量的方法,包括: 获取地理信息的原始数据集和新增数据集;对上述原始数据集和上述新增数据集进行 计算,得到增量计算结果;根据上述增量计算结果更新上述地理信息的数据增量。
进一步地,获取地理信息的原始数据集和新增数据集包括:扫描地理信息数据库; 根据扫描结果生成地理信息的候选项集,上述候选项集包括上述原始数据集和上述新 增数据集。
进一步地,对上述原始数据集和上述新增数据集进行计算,得到增量计算结果包 括:将上述原始数据集划分为原始频繁项集和原始非频繁项集,并将上述新增数据集 划分为新增频繁项集和新增非频繁项集,其中,在数据集中,支持度计数大于等于数 据集中事务记录数目与最小支持度阈值的乘积的项集为频繁项集,支持度计数小于数 据集中事务记录数目与最小支持度阈值的乘积的项集为非频繁项集;计算上述原始频 繁项集与上述新增频繁项集的并集,得到第一并集;计算上述原始频繁项集与上述新 增非频繁项集,得到第二并集;计算上述原始非频繁项集与上述新增频繁项集,得到 第三并集;计算上述原始非频繁项集与上述新增非频繁项集,得到第四并集;将上述 第一并集、上述第二并集、上述第三并集和上述第四并集作为上述增量计算结果。
进一步地,根据上述增量计算结果更新上述地理信息的数据增量包括:将上述第 一并集中的项集作为数据增量添加至上述新增数据集中;将上述第四并集中的项集从 上述原始数据集中删除。
进一步地,根据上述增量计算结果更新上述地理信息的数据增量包括:判断上述 第二并集中的项集是否是非频繁项集;若是,则将该非频繁项集对应的原始频繁项集 从上述原始数据集中删除;和/或判断上述第三并集中的项集是否是频繁项集;若是, 则将该频繁项集对应的原始非频繁项集添加到上述新增数据集中。
根据本发明实施例的另一方面,还提供了一种更新地理信息数据增量的装置,包 括:获取单元,用于获取地理信息的原始数据集和新增数据集;计算单元,用于对上 述原始数据集和上述新增数据集进行计算,得到增量计算结果;更新单元,用于根据 上述增量计算结果更新上述地理信息的数据增量。
进一步地,上述获取单元包括:扫描模块,用于扫描地理信息数据库;生成模块, 用于根据扫描结果生成地理信息的候选项集,上述候选项集包括上述原始数据集和上 述新增数据集。
进一步地,上述计算单元包括:划分模块,用于将上述原始数据集划分为原始频 繁项集和原始非频繁项集,并将上述新增数据集划分为新增频繁项集和新增非频繁项 集,其中,在数据集中,支持度计数大于等于数据集中事务记录数目与最小支持度阈 值的乘积的项集为频繁项集,支持度计数小于数据集中事务记录数目与最小支持度阈 值的乘积的项集为非频繁项集;第一计算模块,用于计算上述原始频繁项集与上述新 增频繁项集的并集,得到第一并集;第二计算模块,用于计算上述原始频繁项集与上 述新增非频繁项集,得到第二并集;第三计算模块,用于第一计算模块,用于计算上 述原始非频繁项集与上述新增频繁项集,得到第三并集;第四计算模块,用于计算上 述原始非频繁项集与上述新增非频繁项集,得到第四并集;确定模块,用于将上述第 一并集、上述第二并集、上述第三并集和上述第四并集作为上述增量计算结果。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国网北京市电力公司;国家电网公司;北京电力经济技术研究院;国网数通(北京)科技有限公司,未经国网北京市电力公司;国家电网公司;北京电力经济技术研究院;国网数通(北京)科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510846820.7/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种基于Web的多维分析系统及方法
- 下一篇:页面检测方法及客户端
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置