[发明专利]一种网页爬虫方法、装置以及电子设备在审
申请号: | 201810082418.X | 申请日: | 2018-01-29 |
公开(公告)号: | CN108415941A | 公开(公告)日: | 2018-08-17 |
发明(设计)人: | 张星 | 申请(专利权)人: | 湖北省楚天云有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京国帆知识产权代理事务所(普通合伙) 11334 | 代理人: | 王荣 |
地址: | 430000 湖北省武汉市东湖开发区花城大*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 网页爬虫 相关度 电子设备 内容向量 主题向量 网页内容 准确率 重复 | ||
本说明书实施例公开了一种网页爬虫方法、装置以及电子设备,所述方法包括:确定待爬取主题,获得对应的主题向量表示;基于从未爬取列表中确定的未爬取URL,获取对应页面的内容向量表示;根据所述内容向量表示与所述主题向量表示的相关度,确定所需URL。同时设置未爬取URL列表和已爬取URL列表,并将完成爬取的URL存储到已爬取URL列表中,放置对URL的重复爬取,可以有效提高爬取的效率;进一步地,为了提高爬取的准确率,对待爬取URL对应的网页内容与待爬取主题的相关度进行计算,对相关度比较高的URL进行爬取,并将爬取过的URL存储到已爬取URL列表中;基于上述方案,能够实现准确、高效的网页爬虫。
技术领域
本说明书涉及计算机技术领域,尤其涉及一种网页爬虫方法、装置以及电子设备。
背景技术
随着网络技术的发展,网络当中包含有越来越多的数据,人们如果想要获取数据通常采用爬虫技术从网页或数据库当中获取数据。
在现有技术中的爬虫方案,爬虫爬取技术的门槛相对较高,需要了解大量的专业技术的基础上才可以进行爬虫工作,这严重阻碍了大量非技术人员获取数据通道;在实际爬取过程中,由于有的待爬取网页中只有个别词语与主题相关,而该网页的实际核心内容与主题不相关,常常会出现网络爬虫的爬取结果匹配不准确的问题。这是因为爬取目标是尽可能大的覆盖网络,导致爬行的结果中包含大量用户不需要的网页。爬虫不能很好地搜索和获取信息含量密集且具有一定结构的数据,对内容的搜索过滤大多是基于关键字的检索,对于其他智能化搜索过滤的要求难以实现。
基于现有技术,需要能够准确、高效的配置爬虫的方案。
发明内容
本说明书实施例提供一种网页爬虫方法、装置以及电子设备,用于解决以下技术问题:需要能够准确、高效的配置爬虫的方案。
为解决上述技术问题,本说明书实施例是这样实现的:
本说明书实施例提供的一种网页爬虫方法,包括:
确定待爬取主题,获得对应的主题向量表示;
基于从未爬取列表中确定的未爬取URL(Uniform Resource Locator,统一资源定位符),获取对应页面的内容向量表示;
根据所述内容向量表示与所述主题向量表示的相关度,确定所需URL。
进一步地,所述未爬取列表的获取方法,具体包括:
获取待爬取URL的第一摘要数据;
判断所述第一摘要数据与已爬取列表中的第二摘要数据是否相同;
若否,将所述待爬取URL存入所述未爬取列表。
进一步地,所述摘要数据通过MD5函数得到,所述未爬取列表和所述已爬取列表包括:哈希表。
进一步地,若是,将所述待爬取URL存入所述已爬取列表。
进一步地,所述根据所述内容向量表示与所述主题向量表示的相关度,确定所需URL,具体包括:
计算所述内容向量表示与所述主题向量表示的相关度;
若大于预设相关度阈值,则确定所需URL;
若小于预设相关度阈值,则继续重新判断下一个URL
本说明书实施例提供的一种网页爬虫装置,包括:
第一获取模块,确定待爬取主题,获得对应的主题向量表示;
第二获取模块,基于从未爬取列表中确定的未爬取URL,获取对应页面的内容向量表示;
确定模块,根据所述内容向量表示与所述主题向量表示的相关度,确定所需URL。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于湖北省楚天云有限公司,未经湖北省楚天云有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810082418.X/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种多功能相框
- 下一篇:个性化教唱和演唱评分二维码生成方法、装置和系统