[发明专利]一种基于爬虫的数据源发现和验证系统有效
申请号: | 201910833348.1 | 申请日: | 2019-09-04 |
公开(公告)号: | CN110688555B | 公开(公告)日: | 2023-07-07 |
发明(设计)人: | 汤寒林 | 申请(专利权)人: | 华东江苏大数据交易中心股份有限公司 |
主分类号: | G06F16/951 | 分类号: | G06F16/951 |
代理公司: | 上海申新律师事务所 31272 | 代理人: | 俞涤炯 |
地址: | 224000 江苏省盐城市城*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明提供一种基于爬虫的数据源发现和验证系统,属于数据交易领域,包括指令生成模块;多个发现模块,接收数据源获取指令从相应的数据源集合中获取可用数据的相关信息,根据相关信息的相应位置生成索引信息;信息获取模块,根据索引信息基于爬虫从至少一个数据源集合中获取存储有可用数据的数据源的属性信息和可用数据;验证模块,根据预存的验证策略对属性信息进行验证操作以判断数据源是否为需求数据源;策略更新模块,远程通信单元用于接收远程终端发送的更新策略并实时动态更新策略存储单元中存储的验证策略。本发明的有益效果:有效提高数据源获取和验证效率。 | ||
搜索关键词: | 一种 基于 爬虫 数据源 发现 验证 系统 | ||
【主权项】:
1.一种基于爬虫的数据源发现和验证系统,其特征在于,包括:/n指令生成模块,用于提供给管理者输入数据源获取指令,并输出所述数据源获取指令;/n多个发现模块,连接所述指令生成模块,每个所述发现模块分别关联多个预设的数据源集合,用于接收所述数据源获取指令,根据所述数据源获取指令从相应的数据源集合中获取可用数据的相关信息,根据所述相关信息的相应位置生成索引信息;/n信息获取模块,连接多个所述发现模块,用于获取所述索引信息,根据所述索引信息,并基于爬虫从至少一个所述数据源集合中获取存储有所述可用数据的所述数据源的属性信息和所述可用数据;/n验证模块,连接所述信息获取模块,用于接收所述属性信息,根据预存的验证策略对所述属性信息进行验证操作以判断所述数据源是否为需求数据源,并在判断结果为是时向所述信息获取模块发送通过信息,在判断结果为否时向所述信息获取模块发送不通过信息;/n策略更新模块,连接所述验证模块,由远程通信单元和策略存储单元构成,远程通信单元用于接收远程终端发送的更新策略,并根据所述更新策略实时动态更新所述策略存储单元中存储的所述验证策略;/n所述信息获取模块接收通过信息后向所述管理者输出所述数据源的所述属性信息和所述可用数据,所述信息获取模块接收所述不通过信息后删除存储的所述数据源的所述属性信息和所述可用数据。/n
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华东江苏大数据交易中心股份有限公司,未经华东江苏大数据交易中心股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201910833348.1/,转载请声明来源钻瓜专利网。