[发明专利]基于样本数据的数据探测和扩充方法及装置有效
申请号: | 201611264829.8 | 申请日: | 2016-12-30 |
公开(公告)号: | CN106844553B | 公开(公告)日: | 2020-05-01 |
发明(设计)人: | 汤奇峰;李炳辉 | 申请(专利权)人: | 晶赞广告(上海)有限公司 |
主分类号: | G06F16/23 | 分类号: | G06F16/23;G06F16/9535;G06F16/955 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 张振军;吴敏 |
地址: | 200072 上海市闸北区灵*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 样本 数据 探测 扩充 方法 装置 | ||
一种基于样本数据的数据探测和扩充方法及装置,所述方法包括如下步骤:基于数据库中的至少一条数据确定所述样本数据,所述数据库存储有从海量数据中探测获得的多条数据;基于所述样本数据在所述海量数据中查找,以获得所述海量数据中与所述样本数据相匹配的匹配数据;对所述匹配数据进行处理以获得匹配规则,并更新指纹库,所述指纹库存储有历史上获得的匹配规则;基于更新后的指纹库在所述海量数据中进行匹配提取,以获得所述海量数据中与所述更新后的指纹库中的匹配规则相匹配的数据,并将匹配获得的数据扩充至所述数据库。通过本发明提供的技术方案能够更加准确、高效的对海量数据进行全局、系统的分析和处理。
技术领域
本发明涉及互联网技术领域,具体地涉及一种基于样本数据的数据探测和扩充方法及装置。
背景技术
随着互联网技术的高速发展,中国互联网网站和上网人数均飞速攀升,随着网民的飞速增长,以及互联网资源越来越丰富,互联网上产生的访问日志数据也快速膨胀形成海量数据,使得如何从海量数据中探测发现并扩充所需的数据信息成为当前信息处理方工作的重中之重。
目前,从海量数据中发现和扩充所需数据的方法主要集中在以下两种:其一,是人工检查数据方式,依靠人工对互联网上各网站或者应用程序(Application,简称APP,例如,装载在手机中的应用软件)的用户访问统一资源定位符(Uniform Resource Locator,简称URL)进行分析和总结,得到一系列的匹配规则,然后基于这些匹配规则再到互联网的海量数据资源中再进行匹配,从而提取扩充获得所需的数据。其二,则是应用程序编程接口(Application Programming Interface,简称API)查询方式,这种方法是通过API提供方的文档说明,根据需要调用对方的接口从而获取所需的数据。
这两种方法虽然能在一定程度上满足用户希望从海量数据中发现和扩充特定类型的数据,但是,这两种方法各自存在着无法回避的缺陷。对于人工检查数据方式而言,在实际操作中需要大量的人力去手动进行相关的分析和统计,探测和扩充效率低;API查询方式则依赖于API提供方提供的文档说明,具有不确定性。
另一方面,包括上述两种方式在内的现有数据发现和扩充方法,最终获得的都是某些特定网站上的数据。但是由于互联网中网站规模的飞速扩张,并且许多网站和APP对URL的构建方式没有制定统一的标准和规律,因此通过现有方法获取的数据只是海量数据中的一小部分,不利于用户对海量数据进行全局、系统的分析和处理,影响了用户所探测和扩充获得的数据的准确度。
发明内容
本发明解决的技术问题是现有技术无法以更为准确、高效的方式对海量数据进行全局、系统的分析和处理。
为解决上述技术问题,本发明实施例提供一种基于样本数据的数据探测和扩充方法,包括如下步骤:基于数据库中的至少一条数据确定所述样本数据,所述数据库存储有从海量数据中探测获得的多条数据;基于所述样本数据在所述海量数据中查找,以获得所述海量数据中与所述样本数据相匹配的匹配数据;对所述匹配数据进行处理以获得匹配规则,并更新指纹库,所述指纹库存储有历史上获得的匹配规则;基于更新后的指纹库在所述海量数据中进行匹配提取,以获得所述海量数据中与所述更新后的指纹库中的匹配规则相匹配的数据,并将匹配获得的数据扩充至所述数据库。
可选的,所述基于数据库中的至少一条数据确定所述样本数据,包括如下步骤:从所述数据库中选择预设数量的数据,并将所述预设数量的数据的特征信息作为所述样本数据。
可选的,所述特征信息包括:所述预设数量的数据的特征标识码;或者根据所述预设数量的数据确定的正则表达式。
可选的,基于所述样本数据在所述海量数据中查找,以获得所述海量数据中与所述样本数据相匹配的匹配数据,包括如下步骤:在所述海量数据中查找与所述样本数据具有相同特征信息的数据,并将所述具有相同特征信息的数据作为所述匹配数据。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于晶赞广告(上海)有限公司,未经晶赞广告(上海)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201611264829.8/2.html,转载请声明来源钻瓜专利网。
- 上一篇:尿素热解SCR脱硝装置
- 下一篇:一种尿素热解SCR脱硝装置
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置