[发明专利]一种数据处理方法及装置有效
申请号: | 201710501629.8 | 申请日: | 2017-06-27 |
公开(公告)号: | CN109145225B | 公开(公告)日: | 2022-02-08 |
发明(设计)人: | 罗净 | 申请(专利权)人: | 阿里巴巴集团控股有限公司 |
主分类号: | G06F16/9537 | 分类号: | G06F16/9537;G06F16/29 |
代理公司: | 北京安信方达知识产权代理有限公司 11262 | 代理人: | 李丹;栗若木 |
地址: | 英属开曼群岛大开*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 数据处理 方法 装置 | ||
本申请公开了一种数据处理方法及装置,包括:从设备的定位数据中筛选出空间有效的定位数据;利用筛选出的空间有效的定位数据分析设备间的活动相似度。通过本发明提供的技术方案,一方面对海量的定位数据的离线处理,得到的空间有效数据的数据量得到了很好的收敛,另一方面,利用筛选后的收敛后的空间有效的数据进行后续实时分析,提高了实时分析的数据处理效率,而且这些收敛后的定位数据是空间有效的定位数据,也保障了后续实时分析的准确度。
技术领域
本申请涉及移动互联网技术,尤指一种数据处理方法及装置。
背景技术
在移动互联网时代,有大量的设备能够持续不间断的产生位置数据。实际应用中,虽然活动中的设备通常能够不间断的产生位置数据,但是,每个设备产生位置数据的频率不同,位置精度也会不同,如何能在如此海量的稀疏的位置数据中快速获知设备(采用不同的号码标识)之间的活动相似度,以推测哪些设备的使用者是同一用户。
由于不同设备会在不同的时间、位置产生位置数据,要基于这样的位置数据来计算两个设备的活动相似度,通常是直接对两个设备在时间与空间两个维度上同时求交集,其交集数量越高,则活动相似度越高,图1为相关技术中通过在时间与空间两个维度上求交集以获取设备的活动相似度的数据处理过程示意图,如图1所示,横轴表示时间,纵轴标识空间,在时间和空间表示的二维图区域描述一个时空范围,图1中的各个小圆点表示某个设备产生的一个时空数据。这里以标识①作为目标设备,描述通过时空求交的方式找出与标识①的设备(下文称为设备①)最相似的设备。
如图1所示,仅以设备①、设备②、设备③、设备④和设备⑤为例,对于设备①,以该设备产生的每一条数据的时间、空间为中心,分别以时间窗口为ΔT、空间窗口为ΔS的二维矩形窗口与其它时空信息求交,如1图中一共有11个矩形窗口分别表示设备①的11个时空信息基于时长ΔT和空长ΔS扩展后的矩形窗口,被这些矩形窗口覆盖的其它设备数据点表示与设备①在时空上相交。最终结果可以看出,其中,设备②与设备①一共相交了3次,设备③与设备①一共相交了2次,设备④与设备①一共相交了4次,号码⑤与设备①一共相交了9次。相比之下,设备⑤与设备①的活动相似度最高,其次最有可能是设备④,依次根据覆盖数从高到低排序。
从相关技术提供的数据处理技术方案可见,实际上只有在数据精度足够高以及数据量不是特别大的情况下,现有的数据处理方法才能较好的应用起来。对于时间粗糙和经度信息精度较低的设备的定位数据,存在以下问题:
一方面,在时间维度上,需要将目标设备的每一条数据的时间与其它所有设备的数据的时间进行交集匹配。由于设备的定位数据的产生时间很稀疏,一个设备可能需要数分钟至数小时才会更新一次位置信息,为了确保真正活动相似的设备能够在时间上有交集,需要把时间窗口调整得足够大,如30分钟。另一方面,在空间维度上,需要将目标设备的每一条数据的位置与其它所有设备的数据的位置进行交集匹配。由于位置产生的精度存在不一致,为了确保真正活动相似的设备能够在空间上有交集,需要把空间窗口调整得足够大,如1000米。
而时间窗口的扩大和空间窗口的扩大都会导致得到非常多的噪声数据,比如:时间窗口扩大时,会将更多的碰巧该时间窗口经过同一位置的设备也涵盖进来,如某个区域,10分钟内有n个不相关的设备经过,20分钟可能就有2n个不相关的设备经过;再如:空间窗口扩大时,同样也会将更多的设备涵盖进来,如1平方千米有100个不相关的设备,而4平方千米就可能有400个不相关的设备。而这些被涵盖进来的不相关设备都是噪声。从而使得产生的中间数据量极大,数据处理效率十分低下,而且机器消耗惊人,在需要快速查找与某个设备的活动相似的设备时,采用现有技术的数据处理方法是根本无法实现的。
发明内容
为了解决上述技术问题,本申请提供了一种数据处理方法及装置,能够提高基于大数据的数据处理效率,实现基于活动相似的快速设备查找。
为了达到本申请目的,本申请提供一种数据处理方法,包括:
从设备的定位数据中筛选出空间有效的定位数据;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于阿里巴巴集团控股有限公司,未经阿里巴巴集团控股有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710501629.8/2.html,转载请声明来源钻瓜专利网。
- 上一篇:社交网络事件时序关系分析方法
- 下一篇:内容推送方法和装置