[发明专利]应用下载量统计数据去重方法、装置和终端设备有效

专利信息
申请号: 201610394413.1 申请日: 2016-06-06
公开(公告)号: CN107463578B 公开(公告)日: 2020-01-14
发明(设计)人: 路博;王跃;王琼;刘思言;王洪岭;邓琳碧 申请(专利权)人: 工业和信息化部电信研究院
主分类号: G06F16/215 分类号: G06F16/215;G06F16/951;G06F16/955
代理公司: 11514 北京酷爱智慧知识产权代理有限公司 代理人: 李娜
地址: 100191 *** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 应用 下载量 统计数据 方法 装置 终端设备
【说明书】:

发明提供一种应用下载量统计数据去重方法,首先,获取由多条记录有应用下载量的基础数据构成的基础数据集;然后,以应用商店标识字段和应用名称字段为键值,采用map算法将所述基础数据集映射为多个数据组;接下来,以所述数据组为任务节点,在所述数据组中判断出重复数据,并根据判断结果对重复数据进行区分性打标;处理完成后获得由所有所述数据组组成的中间数据集;最后,根据打标内容对所述中间数据集中的所有基础数据进行归约处理,获得去除重复数据的结果数据集。通过本方法,可有效去除应用下载量统计数据中的重复数据,解决了现有技术中没有去除应用下载量统计数据中的重复数据的解决方案的问题,进而解决目前对下载量统计不准确的问题。

技术领域

本发明涉及数据统计领域,具体的说是一种应用下载量统计数据去重方法、一种应用下载量统计数据去重装置和一种应用下载量统计数据去重终端设备。

背景技术

目前,互联网中有很多应用商店,应用商店中提供各种种类的应用供用户下载。

为了解互联网中各个应用商店(APP store)中的不同应用的数量情况,需要对应用商店中的各个应用的数量进行统计。但是,目前应用商店中普遍存在应用重复上架的情况,比如同一个应用因版本、名称的差异,在同一商店内可能存在多个,每个的下载量可能相同也可能不同,从而会导致对应用下载量的统计不准确。相似的,为了解互联网中不同应用的总的数量,也需要对应用商店中的各个应用的数量进行统计,由于应用商店中普遍存在的应用重复问题,依照现有技术无法得到准确的统计结果。

发明内容

鉴于上述问题,迫切需要一种能够有效识别应用商店中的重复应用,并能够去除从应用商店中爬取的应用下载量统计数据中的重复数据的应用下载量统计数据去重方法,以及相对应的一种应用下载量统计数据去重装置和一种应用下载量统计数据去重终端设备。

本发明采用的技术方案是:

本申请提供一种应用下载量统计数据去重方法,包括:

获取由多条记录有应用下载量的基础数据构成的基础数据集;其中,所述基础数据至少包括应用名称字段、下载量字段和应用商店标识字段;

以应用商店标识字段和应用名称字段为键值,采用map算法将所述基础数据集映射为多个数据组;其中,每个所述数据组中的所有基础数据有相同的应用名称字段和应用商店标识字段;

以所述数据组为任务节点,选取所述数据组中下载量字段最大的一条基础数据作为参照数据;依次计算所述数据组中剩余的基础数据的下载量字段与所述参照数据的下载量字段之间的差异,判断所述差异是否符合预设的阈值条件,若符合,则判断所述基础数据为重复数据,否则将所述基础数据也作为参照数据供所述数据组中剩余的基础数据进行计算;根据判断结果对所述数据组内的重复数据进行区分性打标;处理完成后获得由所有所述数据组组成的中间数据集;

根据打标内容对所述中间数据集中的所有基础数据进行归约处理,获得去除重复数据的结果数据集。

可选的,在所述根据打标内容对所述中间数据集中的所有基础数据进行归约处理,获得去除重复数据的结果数据集的步骤前,还包括:

对所述中间数据集中下载量字段相同的多条参照数据,从应用名称字段、应用图标指纹字段和应用开发者字段中的至少一个维度互相进行比较,根据比较结果判断所述多条参照数据中是否含有重复数据,并对判断出的重复数据进行区分性打标。

可选的,所述应用下载量统计数据去重方法,还包括:

对所述结果数据集中的基础数据,根据所述基础数据中的应用名称字段在预设的别名库中查询相应的别名;

在所述基础数据中添加相应的别名字段,获得由添加别名字段后的基础数据构成的别名数据集。

可选的,所述应用下载量统计数据去重方法,还包括:

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于工业和信息化部电信研究院,未经工业和信息化部电信研究院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201610394413.1/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top