[发明专利]一种基于爬虫的数据源发现和验证系统有效
申请号: | 201910833348.1 | 申请日: | 2019-09-04 |
公开(公告)号: | CN110688555B | 公开(公告)日: | 2023-07-07 |
发明(设计)人: | 汤寒林 | 申请(专利权)人: | 华东江苏大数据交易中心股份有限公司 |
主分类号: | G06F16/951 | 分类号: | G06F16/951 |
代理公司: | 上海申新律师事务所 31272 | 代理人: | 俞涤炯 |
地址: | 224000 江苏省盐城市城*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 爬虫 数据源 发现 验证 系统 | ||
本发明提供一种基于爬虫的数据源发现和验证系统,属于数据交易领域,包括指令生成模块;多个发现模块,接收数据源获取指令从相应的数据源集合中获取可用数据的相关信息,根据相关信息的相应位置生成索引信息;信息获取模块,根据索引信息基于爬虫从至少一个数据源集合中获取存储有可用数据的数据源的属性信息和可用数据;验证模块,根据预存的验证策略对属性信息进行验证操作以判断数据源是否为需求数据源;策略更新模块,远程通信单元用于接收远程终端发送的更新策略并实时动态更新策略存储单元中存储的验证策略。本发明的有益效果:有效提高数据源获取和验证效率。
技术领域
本发明涉及数据交易技术领域,尤其涉及一种基于爬虫的数据源发现和验证系统。
背景技术
随着互联网技术的发展,互联网的应用越来越广泛,互联网中网络数据的数据量也越来越大。人们可以通过浏览器在互联网中浏览网络数据,如新闻、视频和小说等。为了方便用户获取更多的网络数据,一些网站经常会从其他网站中爬取网络数据,将爬取到的网络数据设置在本网站中,爬取网络数据的处理通常由爬取服务器来完成。
对于互联网的海量数据源,如何高效的找到目标数据所在的目标数据源,对目标数据源进行验证后获取所需数据源以及所需数据源中的目标数据成为亟待解决的技术问题。
发明内容
针对现有技术中存在的问题,本发明涉及一种基于爬虫的数据源发现和验证系统,能够高效的找到目标数据所在的目标数据源,对目标数据源进行验证后获取所需数据源以及所需数据源中的目标数据。
本发明采用如下技术方案:
一种基于爬虫的数据源发现和验证系统,指令生成模块,用于提供给管理者输入数据源获取指令,并输出所述数据源获取指令;
多个发现模块,连接所述指令生成模块,每个所述发现模块分别关联多个预设的数据源集合,用于接收所述数据源获取指令,根据所述数据源获取指令从相应的数据源集合中获取可用数据的相关信息,根据所述相关信息的相应位置生成索引信息;
信息获取模块,连接多个所述发现模块,用于获取所述索引信息,根据所述索引信息,并基于爬虫从至少一个所述数据源集合中获取存储有所述可用数据的所述数据源的属性信息和所述可用数据;
验证模块,连接所述信息获取模块,用于接收所述属性信息,根据预存的验证策略对所述属性信息进行验证操作以判断所述数据源是否为需求数据源,并在判断结果为是时向所述信息获取模块发送通过信息,在判断结果为否时向所述信息获取模块发送不通过信息;
策略更新模块,连接所述验证模块,由远程通信单元和策略存储单元构成,远程通信单元用于接收远程终端发送的更新策略,并根据所述更新策略实时动态更新所述策略存储单元中存储的所述验证策略;
所述信息获取模块接收通过信息后向所述管理者输出所述数据源的所述属性信息和所述可用数据,所述信息获取模块接收所述不通过信息后删除存储的所述数据源的所述属性信息和所述可用数据。
优选的,每个所述发现模块关联的所述数据源集合分别具有一唯一的特征信息,所述特征信息包括所述数据源的类型信息、归属信息以及运行信息。
优选的,所述发现模块还用于根据每个所述发现模块生成的所述索引信息生成索引模型;
所述信息获取还用于获取所述索引模型,根据所述索引模块从至少一个所述数据源集合中获取存储有所述可用数据的所述数据源的所述属性信息和所述可用数据。
优选的,利用多个所述发现模块每接收一次所述数据源获取指令后生成的所述相关性信息,并基于深度学习方法更新所述索引模型。
优选的,所述发现模块获取所述可用数据的所述相关信息的具体步骤包括:
根据所述数据获取指令获取相应的目标数据源的所述属性信息和数据存储列表;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华东江苏大数据交易中心股份有限公司,未经华东江苏大数据交易中心股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910833348.1/2.html,转载请声明来源钻瓜专利网。