[发明专利]应用下载量统计数据去重方法、装置和终端设备有效
申请号: | 201610394413.1 | 申请日: | 2016-06-06 |
公开(公告)号: | CN107463578B | 公开(公告)日: | 2020-01-14 |
发明(设计)人: | 路博;王跃;王琼;刘思言;王洪岭;邓琳碧 | 申请(专利权)人: | 工业和信息化部电信研究院 |
主分类号: | G06F16/215 | 分类号: | G06F16/215;G06F16/951;G06F16/955 |
代理公司: | 11514 北京酷爱智慧知识产权代理有限公司 | 代理人: | 李娜 |
地址: | 100191 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明提供一种应用下载量统计数据去重方法,首先,获取由多条记录有应用下载量的基础数据构成的基础数据集;然后,以应用商店标识字段和应用名称字段为键值,采用map算法将所述基础数据集映射为多个数据组;接下来,以所述数据组为任务节点,在所述数据组中判断出重复数据,并根据判断结果对重复数据进行区分性打标;处理完成后获得由所有所述数据组组成的中间数据集;最后,根据打标内容对所述中间数据集中的所有基础数据进行归约处理,获得去除重复数据的结果数据集。通过本方法,可有效去除应用下载量统计数据中的重复数据,解决了现有技术中没有去除应用下载量统计数据中的重复数据的解决方案的问题,进而解决目前对下载量统计不准确的问题。 | ||
搜索关键词: | 应用 下载量 统计数据 方法 装置 终端设备 | ||
【主权项】:
1.一种应用下载量统计数据去重方法,其特征在于,包括:/n获取由多条记录有应用下载量的基础数据构成的基础数据集;其中,所述基础数据至少包括应用名称字段、下载量字段和应用商店标识字段;/n以应用商店标识字段和应用名称字段为键值,采用map算法将所述基础数据集映射为多个数据组;其中,每个所述数据组中的所有基础数据有相同的应用名称字段和应用商店标识字段;/n以所述数据组为任务节点,选取所述数据组中下载量字段最大的一条基础数据作为参照数据;依次计算所述数据组中剩余的基础数据的下载量字段与所述参照数据的下载量字段之间的差异,判断所述差异是否符合预设的阈值条件,若符合,则判断所述基础数据为重复数据,否则将所述基础数据也作为参照数据供所述数据组中剩余的基础数据进行计算;根据判断结果对所述数据组内的重复数据进行区分性打标;处理完成后获得由所有所述数据组组成的中间数据集;/n根据打标内容对所述中间数据集中的所有基础数据进行归约处理,获得去除重复数据的结果数据集。/n
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于工业和信息化部电信研究院,未经工业和信息化部电信研究院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201610394413.1/,转载请声明来源钻瓜专利网。
- 上一篇:手柄(蜘蛛)
- 下一篇:反冲洗前置过滤器(万向)