[发明专利]一种手机APP定位异常数据检测方法及其装置在审
申请号: | 201710156463.0 | 申请日: | 2017-03-16 |
公开(公告)号: | CN107071802A | 公开(公告)日: | 2017-08-18 |
发明(设计)人: | 王德;殷振轩 | 申请(专利权)人: | 同济大学;上海同济城市规划设计研究院 |
主分类号: | H04W24/02 | 分类号: | H04W24/02;H04W24/08;G06F19/00 |
代理公司: | 上海东亚专利商标代理有限公司31208 | 代理人: | 罗习群,陈臻晔 |
地址: | 200092 *** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 手机 app 定位 异常 数据 检测 方法 及其 装置 | ||
技术领域
发明涉及手机数据分析的方法,尤其是一种手机APP定位异常数据检测方法及其装置。
背景技术
人的行为一直是重要的研究领域,近年来,基于大数据的人的行为研究更是得到了迅速的发展。手机APP定位数据可以提供大量用户精准的位置数据为研究人的行为提供重要依据。但是,部分厂商为了推广APP,采用刷APP用户量的方法,伪造大量手机APP用户,更换IP模拟位置切换,大量污染数据,严重影响采集数据的准确性。目前,只能通过人工判断的方法来排查、筛选有效的数据,成本高且效率低。因此,需要一种有效检测手机APP定位异常数据的方法及其装置。
发明内容
针对如何高效检测伪造的手机APP用户,以及精准清洗大量异常数据的技术问题,本发明提出了一种手机APP定位异常数据检测方法及其装置。
一种手机APP定位异常数据检测方法,具体步骤如下:
A.读取服务器中的用户定位数据,剔除时间戳和用户代码错误的数据;
B.统计每个经纬度位置上的用户数量;
C.以均值比方法从步骤B中的统计数据中找出异常点;
D.根据置信区间和统计量众数,判断异常点是否真实;
E.将步骤D中判断为用户数量数据不真实的异常点作为异常用户数量的起始处,将异常点以及排序在异常点之后的所有用户数量标记为异常用户数量,并找出这些异常用户数量对应的经纬度位置,删除在这些经纬度位置上记录用户的所有数据。
进一步的,在上述方案的基础上,在所述步骤C以均值比方法从步骤B中的统计数据中找出异常点,是将每个经纬度位置上记录的用户数量按从小到大排列,分别计算第一个至倒数第二个统计量的跳跃度(是期望点估计,n为统计量数量),跳跃度最大处为异常点。
进一步的,在上述方案的基础上,所述步骤D根据置信区间和统计量众数,判断异常点是否真实,是判断在置信区间的条件下,异常点是否真实,并判断所述异常用户数量的起始点是否位于统计量的众数处。由于按从小到大排列的用户数量X1,X2,…,Xn可以用指数分布来近似,则对任意的1≤ k< r≤ n,有服从于F(2(r-k),2k)分布(约定X0=0),令的分位点为,通过判断,可以判断在置信区间的条件下,异常点是否真实。并需要判断跳跃度最大处是否位于统计量众数处。且异常用户数量的起始点并非位于统计量的众数处时,认为Xk+1,…,Xn是不真实的用户数量。
一种手机APP定位异常数据检测的装置,包括数据存储模块、判断模块、数据预处理模块、检测模块和清洗模块,
所述数据预处理模块,与数据存储模块连接,用于导出数据存储模块中的数据并进行预处理,构造适用于检测的统计量;
所述检测模块,与数据预处理模块连接,用于分析预处理后的数据,确定异常用户数量的起始处;
所述判断模块,与检测模块连接,用于根据置信区间和统计量众数判断检测模块确定的异常点是否真实。如果异常点被判断为不真实数据,则将异常点以及排序在异常点之后的所有用户数量标记为异常用户数量,根据异常用户数量找出异常经纬度位置,并标记异常经纬度位置上用户的所有记录为异常数据;
所述清洗模块,与判断模块和数据存储模块连接,用于剔除判断模块中标记的异常数据,并将最终清洗后的数据导入数据存储模块;
所述数据存储模块,用于分别存储初始数据,以及存储清洗模块导入的处理后数据。
本发明的优点在于,通过一种高效、精准的方法,达到有效检测因APP刷量产生的手机APP定位异常数据的效果,有效保证数据的准确性。
附图说明
图1是本发明所述检测方法的流程示意图;
图2是本发明所述检测装置的示意图。
1-数据存储模块;2-数据预处理模块;3-检测模块;4-判断模块;5-清洗模块。
具体实施方式
下面详细描述本发明的实施例,所述实施例的实例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的原件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本发明,而不能理解为对本发明的限制。
如图1中的流程图所示,手机APP定位异常数据检测方法,具体步骤如下:
A.读取服务器中的用户定位数据,剔除时间戳和用户代码错误的数据;
B.统计每个经纬度位置上的用户数量;
C.以均值比方法从步骤B中的统计数据中找出异常点;
D.根据置信区间和统计量众数,判断异常点是否真实;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于同济大学;上海同济城市规划设计研究院,未经同济大学;上海同济城市规划设计研究院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710156463.0/2.html,转载请声明来源钻瓜专利网。
- 上一篇:切换数据传送方式的方法及系统
- 下一篇:一种邻区核查方法及装置