[发明专利]一种网页爬虫方法、装置以及电子设备在审

申请号：	201810082418.X	申请日：	2018-01-29
公开（公告）号：	CN108415941A	公开（公告）日：	2018-08-17
发明（设计）人：	张星	申请（专利权）人：	湖北省楚天云有限公司
主分类号：	G06F17/30	分类号：	G06F17/30
代理公司：	北京国帆知识产权代理事务所(普通合伙) 11334	代理人：	王荣
地址：	430000 湖北省武汉市东湖开发区花城大***	国省代码：	湖北;42
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	网页爬虫相关度电子设备内容向量主题向量网页内容准确率重复
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本说明书实施例公开了一种网页爬虫方法、装置以及电子设备，所述方法包括：确定待爬取主题，获得对应的主题向量表示；基于从未爬取列表中确定的未爬取URL，获取对应页面的内容向量表示；根据所述内容向量表示与所述主题向量表示的相关度，确定所需URL。同时设置未爬取URL列表和已爬取URL列表，并将完成爬取的URL存储到已爬取URL列表中，放置对URL的重复爬取，可以有效提高爬取的效率；进一步地，为了提高爬取的准确率，对待爬取URL对应的网页内容与待爬取主题的相关度进行计算，对相关度比较高的URL进行爬取，并将爬取过的URL存储到已爬取URL列表中；基于上述方案，能够实现准确、高效的网页爬虫。

技术领域

本说明书涉及计算机技术领域，尤其涉及一种网页爬虫方法、装置以及电子设备。

背景技术

随着网络技术的发展，网络当中包含有越来越多的数据，人们如果想要获取数据通常采用爬虫技术从网页或数据库当中获取数据。

在现有技术中的爬虫方案，爬虫爬取技术的门槛相对较高，需要了解大量的专业技术的基础上才可以进行爬虫工作，这严重阻碍了大量非技术人员获取数据通道；在实际爬取过程中，由于有的待爬取网页中只有个别词语与主题相关，而该网页的实际核心内容与主题不相关，常常会出现网络爬虫的爬取结果匹配不准确的问题。这是因为爬取目标是尽可能大的覆盖网络，导致爬行的结果中包含大量用户不需要的网页。爬虫不能很好地搜索和获取信息含量密集且具有一定结构的数据，对内容的搜索过滤大多是基于关键字的检索，对于其他智能化搜索过滤的要求难以实现。

基于现有技术，需要能够准确、高效的配置爬虫的方案。

发明内容

本说明书实施例提供一种网页爬虫方法、装置以及电子设备，用于解决以下技术问题：需要能够准确、高效的配置爬虫的方案。

为解决上述技术问题，本说明书实施例是这样实现的：

本说明书实施例提供的一种网页爬虫方法，包括：

确定待爬取主题，获得对应的主题向量表示；

基于从未爬取列表中确定的未爬取URL(Uniform Resource Locator，统一资源定位符)，获取对应页面的内容向量表示；

根据所述内容向量表示与所述主题向量表示的相关度，确定所需URL。

进一步地，所述未爬取列表的获取方法，具体包括：

获取待爬取URL的第一摘要数据；

判断所述第一摘要数据与已爬取列表中的第二摘要数据是否相同；

若否，将所述待爬取URL存入所述未爬取列表。