[发明专利]应用下载量统计数据去重方法、装置和终端设备有效
申请号: | 201610394413.1 | 申请日: | 2016-06-06 |
公开(公告)号: | CN107463578B | 公开(公告)日: | 2020-01-14 |
发明(设计)人: | 路博;王跃;王琼;刘思言;王洪岭;邓琳碧 | 申请(专利权)人: | 工业和信息化部电信研究院 |
主分类号: | G06F16/215 | 分类号: | G06F16/215;G06F16/951;G06F16/955 |
代理公司: | 11514 北京酷爱智慧知识产权代理有限公司 | 代理人: | 李娜 |
地址: | 100191 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 应用 下载量 统计数据 方法 装置 终端设备 | ||
1.一种应用下载量统计数据去重方法,其特征在于,包括:
获取由多条记录有应用下载量的基础数据构成的基础数据集;其中,所述基础数据至少包括应用名称字段、下载量字段和应用商店标识字段;
以应用商店标识字段和应用名称字段为键值,采用map算法将所述基础数据集映射为多个数据组;其中,每个所述数据组中的所有基础数据有相同的应用名称字段和应用商店标识字段;
以所述数据组为任务节点,选取所述数据组中下载量字段最大的一条基础数据作为参照数据;依次计算所述数据组中剩余的基础数据的下载量字段与所述参照数据的下载量字段之间的差异,判断所述差异是否符合预设的阈值条件,若符合,则判断所述基础数据为重复数据,否则将所述基础数据也作为参照数据供所述数据组中剩余的基础数据进行计算;根据判断结果对所述数据组内的重复数据进行区分性打标;处理完成后获得由所有所述数据组组成的中间数据集;
根据打标内容对所述中间数据集中的所有基础数据进行归约处理,获得去除重复数据的结果数据集。
2.根据权利要求1所述的应用下载量统计数据去重方法,其特征在于,在所述根据打标内容对所述中间数据集中的所有基础数据进行归约处理,获得去除重复数据的结果数据集的步骤前,还包括:
对所述中间数据集中下载量字段相同的多条参照数据,从应用名称字段、应用图标指纹字段和应用开发者字段中的至少一个维度互相进行比较,根据比较结果判断所述多条参照数据中是否含有重复数据,并对判断出的重复数据进行区分性打标。
3.根据权利要求1或2所述的应用下载量统计数据去重方法,其特征在于,还包括:
对所述结果数据集中的基础数据,根据所述基础数据中的应用名称字段在预设的别名库中查询相应的别名;
在所述基础数据中添加相应的别名字段,获得由添加别名字段后的基础数据构成的别名数据集。
4.根据权利要求3所述的应用下载量统计数据去重方法,其特征在于,还包括:
对所述别名数据集中的别名字段相同而应用商店标识字段不同的多条基础数据,从应用图标指纹字段和应用开发者字段中的至少一个维度进行比较,根据比较结果判断是否为相同应用,对不同应用的别名进行区分性修改,获得统计数据集。
5.根据权利要求1所述的应用下载量统计数据去重方法,其特征在于,所述获取由多条记录有应用下载量的基础数据构成的基础数据集的步骤,包括:
采用网络爬取方法从不同应用商店中爬取含有应用下载量的多条基础数据,所述多条基础数据构成基础数据集。
6.一种应用下载量统计数据去重装置,其特征在于,包括:
数据集获取模块,用于获取由多条记录有应用下载量的基础数据构成的基础数据集;其中,所述基础数据至少包括应用名称字段、下载量字段和应用商店标识字段;
数据分组模块,用于以应用商店标识字段和应用名称字段为键值,采用map算法将所述基础数据集映射为多个数据组;其中,每个所述数据组中的所有基础数据有相同的应用名称字段和应用商店标识字段;
数据打标模块,用于以所述数据组为任务节点,选取所述数据组中下载量字段最大的一条基础数据作为参照数据;依次计算所述数据组中剩余的基础数据的下载量字段与所述参照数据的下载量字段之间的差异,判断所述差异是否符合预设的阈值条件,若符合,则判断所述基础数据为重复数据,否则将所述基础数据也作为参照数据供所述数据组中剩余的基础数据进行计算;根据判断结果对所述数据组内的重复数据进行区分性打标;处理完成后获得由所有所述数据组组成的中间数据集;
数据归约模块,用于根据打标内容对所述中间数据集中的所有基础数据进行归约处理,获得去除重复数据的结果数据集。
7.根据权利要求6所述的应用下载量统计数据去重装置,其特征在于,还包括:
同下载量判重模块,用于对所述中间数据集中下载量字段相同的多条参照数据,从应用名称字段、应用图标指纹字段和应用开发者字段中的至少一个维度互相进行比较,根据比较结果判断所述多条参照数据中是否含有重复数据,并对判断出的重复数据进行区分性打标。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于工业和信息化部电信研究院,未经工业和信息化部电信研究院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201610394413.1/1.html,转载请声明来源钻瓜专利网。
- 上一篇:手柄(蜘蛛)
- 下一篇:反冲洗前置过滤器(万向)