[发明专利]一种基于爬虫的数据源发现和验证系统有效
申请号: | 201910833348.1 | 申请日: | 2019-09-04 |
公开(公告)号: | CN110688555B | 公开(公告)日: | 2023-07-07 |
发明(设计)人: | 汤寒林 | 申请(专利权)人: | 华东江苏大数据交易中心股份有限公司 |
主分类号: | G06F16/951 | 分类号: | G06F16/951 |
代理公司: | 上海申新律师事务所 31272 | 代理人: | 俞涤炯 |
地址: | 224000 江苏省盐城市城*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 爬虫 数据源 发现 验证 系统 | ||
1.一种基于爬虫的数据源发现和验证系统,其特征在于,包括:
指令生成模块,用于提供给管理者输入数据源获取指令,并输出所述数据源获取指令;
多个发现模块,连接所述指令生成模块,每个所述发现模块分别关联多个预设的数据源集合,用于接收所述数据源获取指令,根据所述数据源获取指令从相应的数据源集合中获取可用数据的相关信息,根据所述相关信息的相应位置生成索引信息;
信息获取模块,连接多个所述发现模块,用于获取所述索引信息,根据所述索引信息,并基于爬虫从至少一个所述数据源集合中获取存储有所述可用数据的所述数据源的属性信息和所述可用数据;
验证模块,连接所述信息获取模块,用于接收所述属性信息,根据预存的验证策略对所述属性信息进行验证操作以判断所述数据源是否为需求数据源,并在判断结果为是时向所述信息获取模块发送通过信息,在判断结果为否时向所述信息获取模块发送不通过信息;
策略更新模块,连接所述验证模块,由远程通信单元和策略存储单元构成,远程通信单元用于接收远程终端发送的更新策略,并根据所述更新策略实时动态更新所述策略存储单元中存储的所述验证策略;
所述信息获取模块接收通过信息后向所述管理者输出所述数据源的所述属性信息和所述可用数据,所述信息获取模块接收所述不通过信息后删除存储的所述数据源的所述属性信息和所述可用数据。
2.根据权利要求1的基于爬虫的数据源发现和验证系统,其特征在于,每个所述发现模块关联的所述数据源集合分别具有一唯一的特征信息,所述特征信息包括所述数据源的类型信息、归属信息以及运行信息。
3.根据权利要求1的基于爬虫的数据源发现和验证系统,其特征在于,所述发现模块还用于根据每个所述发现模块生成的所述索引信息生成索引模型;
所述信息获取还用于获取所述索引模型,根据所述索引模型从至少一个所述数据源集合中获取存储有所述可用数据的所述数据源的所述属性信息和所述可用数据。
4.根据权利要求3的基于爬虫的数据源发现和验证系统,其特征在于,利用多个所述发现模块每接收一次所述数据源获取指令后生成的相关性信息,并基于深度学习方法更新所述索引模型。
5.根据权利要求1的基于爬虫的数据源发现和验证系统,其特征在于,所述发现模块获取所述可用数据的所述相关信息的具体步骤包括:
根据所述数据源获取指令获取相应的目标数据源的所述属性信息和数据存储列表;
抽取所述数据存储列表中的有效内容,获取所述有效内容对应的数据集合并进行过滤得到所述可用数据的所述相关信息。
6.根据权利要求1的基于爬虫的数据源发现和验证系统,其特征在于,所述信息获取模块接收所述不通过信息后向多个所述发现模块发送误差信息;
多个所述发现模块接收所述误差信息后,对关联于误差信息的多个所述数据源进行标记,每个所述发现模块再次接收所述数据源获取指令后,根据所述数据源获取指令从相应的所述数据源集合中获取所述可用数据的所述相关信息时,若存储所述可用数据的所述数据源具有所述标记,则手动判断是否根据所述相关信息的相应位置生成所述索引信息。
7.根据权利要求1的基于爬虫的数据源发现和验证系统,其特征在于,所述策略存储单元采用高速缓存。
8.根据权利要求1的基于爬虫的数据源发现和验证系统,其特征在于,所述验证模块,根据预存的验证策略对所述属性信息进行验证操作以判断所述数据源是否为需求数据源的具体步骤包括:
所述验证模块接收所述属性信息,所述属性信息包括数据和数字签名,所述验证模块对加密后的所述属性信息进行解密得到解密后的信息,根据解密后的信息判断签名验证是否成功。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华东江苏大数据交易中心股份有限公司,未经华东江苏大数据交易中心股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910833348.1/1.html,转载请声明来源钻瓜专利网。