[发明专利]全量数据完整度的检测方法及装置有效
申请号: | 201610052564.9 | 申请日: | 2016-01-26 |
公开(公告)号: | CN105740361B | 公开(公告)日: | 2019-01-29 |
发明(设计)人: | 汤奇峰;李炳辉 | 申请(专利权)人: | 上海晶赞科技发展有限公司 |
主分类号: | G06F16/958 | 分类号: | G06F16/958;G06F16/955 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 吴敏 |
地址: | 200072 上海市闸北区灵*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 数据 完整 检测 方法 装置 | ||
一种全量数据完整度的检测方法及装置,所述检测方法包括:提取全量数据中的第一IP列表,以及所述第一IP列表的访问轨迹数据;加载基准数据,并提取所述基准数据中的第二IP列表,以及所述第二IP列表的访问轨迹数据;对所述第一IP列表的访问轨迹数据和所述第二IP列表的访问轨迹数据进行匹配验证;根据匹配验证的结果,计算所述全量数据的完整度。本发明全量数据完整度的检测方法可以提高对互联网中的全量数据完整度检测的准确性和可靠性,同时,不仅可以评估所述全量数据的完整度,还可以进一步对数据发生丢失的位置进行定位。
技术领域
本发明涉及互联网技术领域,特别涉及一种全量数据完整度的检测方法及装置。
背景技术
随着互联网技术的高速发展,电子产品大量普及,尤其是PC(Personal Computer,个人电脑)、手机等,使得中国的互联网使用人数飞速地攀升,那么,由互联网所产生的相关数据也在快速地膨胀,采集相关数据的企业也越来越多。在获取到这些互联网数据时,数据是否具备完整性十分重要,那么,如何检测并验证数据的完整程度则是一个需要解决的问题。
在现有技术中,对互联网中的数据的相关的验证方法主要集中总结为两种,分别为:经验验证法和抽样验证法。其中,经验验证法需要依靠相关行业中具有较深经验的人员对所述数据的总量进行统计,并凭借经验值进行验证;抽样验证法则是基于对所提供的数据采取抽样的方式进行统计,再根据统计的结果来进行判定。然而,经验验证法过度依赖于相关业务人员的素质和经验,抽样验证法则依赖于抽样选取的字段和抽样方法,容易跳过采样。上述两种验证方法均需要根据数据总量得到一个统计指标,才能判断数据的完整性程度。然而,由于所述数据在采集和存储的过程中可能由于某些原因引入噪音数据,如:网络传输的骤然中断导致所述数据的部分内容被写坏而形成坏行,所述被引入噪声的数据在不影响数据总量的基础上会有较大的概率绕过抽样,从而干扰到验证的结果,使验证结果不准确。
因此,现有技术的互联网中的全量数据面临着完整度无法被准确验证的问题。
发明内容
本发明解决的技术问题是互联网中的全量数据完整度的准确而有效验证的问题。
为解决上述技术问题,本发明实施例提供一种全量数据完整度的检测方法,包括:
提取全量数据中的第一IP列表,以及所述第一IP列表的访问轨迹数据;
加载基准数据,并提取所述基准数据中的第二IP列表,以及所述第二IP列表的访问轨迹数据;
对所述第一IP列表的访问轨迹数据和所述第二IP列表的访问轨迹数据进行匹配验证;
根据匹配验证的结果,计算所述全量数据的完整度。
可选地,在提取所述全量数据对应的所述第一IP列表后,对所述第一IP列表进行归一化处理。
可选地,在对所述第一IP列表进行归一化处理后,剔除所述第一IP列表中重复的IP。
可选地,对所述第一IP列表的访问轨迹数据和所述第二IP列表的访问轨迹数据进行数据字段的归一化处理。
可选地,进行匹配验证之前,还包括:分别对所述第一IP列表的访问轨迹数据和所述第二IP列表的访问轨迹数据进行归并处理,以合并相同时间戳下的相同访问轨迹数据。
可选地,对所述第一IP列表的访问轨迹数据和所述第二IP列表的访问轨迹数据进行匹配验证包括:
提取所述第一IP列表与所述第二IP列表中相同的IP,并记为交集IP;
根据所述交集IP对所述第一IP列表的访问轨迹数据和所述第二IP列表的访问轨迹数据进行匹配验证。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海晶赞科技发展有限公司,未经上海晶赞科技发展有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201610052564.9/2.html,转载请声明来源钻瓜专利网。
- 上一篇:信息显示方法及显示装置
- 下一篇:改进的对象存储的方法及装置
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置