[发明专利]网页数据爬取方法、装置、系统及计算机可读存储介质在审
申请号: | 201910113261.7 | 申请日: | 2019-02-13 |
公开(公告)号: | CN109918554A | 公开(公告)日: | 2019-06-21 |
发明(设计)人: | 吴启;王雪春 | 申请(专利权)人: | 平安科技(深圳)有限公司 |
主分类号: | G06F16/951 | 分类号: | G06F16/951;G06F16/955 |
代理公司: | 深圳市世纪恒程知识产权代理事务所 44287 | 代理人: | 胡海国 |
地址: | 518000 广东省深圳市福田区福*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明提供一种网页数据爬取方法,涉及数据爬取领域,该方法应用于网页数据爬取系统,该系统包括控制服务器、及与控制服务器连接的多个爬虫服务器,该方法包括:控制服务器在接收到爬虫服务器发送的第一网页数据时,对第一网页数据进行特征提取,得到第一文本特征向量;将第一文本特征向量输入预先训练好的指纹生成模型,得到第一网页指纹;计算第一网页指纹与预设存储数据库中的存储网页指纹之间的相似度值,并判断相似度值中是否存在大于预设阈值的相似度值;若不存在,则将第一网页数据存入预设存储数据库中。本发明还提供一种网页数据爬取装置、系统及计算机可读存储介质。本发明能降低基于网络爬虫爬取得到的网页数据的重复率。 | ||
搜索关键词: | 网页数据 控制服务器 相似度 预设 计算机可读存储介质 指纹 文本特征向量 存储数据库 爬虫服务器 网页 存储网页 爬取系统 特征提取 网络爬虫 指纹生成 重复率 发送 | ||
【主权项】:
1.一种网页数据爬取方法,其特征在于,所述网页数据爬取方法应用于网页数据爬取系统,所述网页数据爬取系统包括控制服务器、及与所述控制服务器连接的多个爬虫服务器,所述网页数据爬取方法包括以下步骤:所述控制服务器在接收到所述爬虫服务器发送的第一网页数据时,对所述第一网页数据进行特征提取,得到第一文本特征向量;将所述第一文本特征向量输入预先训练好的指纹生成模型,得到第一网页指纹;计算所述第一网页指纹与预设存储数据库中的存储网页指纹之间的相似度值,并判断所述相似度值中是否存在大于预设阈值的相似度值;若所述相似度值中不存在大于预设阈值的相似度值,则将所述第一网页数据存入所述预设存储数据库中。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于平安科技(深圳)有限公司,未经平安科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201910113261.7/,转载请声明来源钻瓜专利网。