[发明专利]一种基于内嵌浏览器的可视化网络爬虫系统及分析方法在审

专利信息
申请号: 201710234111.2 申请日: 2017-04-11
公开(公告)号: CN107092670A 公开(公告)日: 2017-08-25
发明(设计)人: 李煜;王小龙;李鹏 申请(专利权)人: 武汉大学
主分类号: G06F17/30 分类号: G06F17/30
代理公司: 武汉科皓知识产权代理事务所(特殊普通合伙)42222 代理人: 鲁力
地址: 430072 湖*** 国省代码: 湖北;42
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 浏览器 可视化 网络 爬虫 系统 分析 方法
【说明书】:

技术领域

发明属于计算机网络技术领域,特别是涉及一种基于内嵌浏览器的可视化网络爬虫系统及分析方法。

背景技术

网络爬虫是一种高效的信息抓取工具,它集成了搜索引擎技术,并通过技术手段进行优化,用以从互联网搜索、抓取并保存任何通过HTML超文本标记语言进行标准化的网页信息。网络爬虫分为通用网络爬虫如谷歌、百度浏览器和主题网络爬虫等。由于通用网络爬虫的检索效果不理想,准确率和召回率都很低,所以主题网络爬虫逐渐成为专业用户及研究人员的首选。主题网络爬虫主要采用最佳优先抓取策略,即按照一定的网页评价算法,计算网页与主题的相关性,选取“价值”最高的网页中的链接进行抓取。但是主题网络爬虫存在一定的问题和缺陷,如当前的网页评价算法不完善,配置复杂,爬取效率低等。

另外,网页元素Xpath获取需要一些组件或浏览器的辅助,以Google浏览器为例,具体方法为:打开Chrome→输入网址→右击感兴趣的元素→点击“检查”→右击开发者页面对应元素→点击“Copy”→点击“Copy Xpath”,完成网页元素Xpath获取任务。很明显这一过程过于繁琐,若元素数量多,则会耗费大量精力。

目前,国内外与可视化爬虫配置相关的文献少之又少,而已有的成熟的可视化网络爬虫不多且各有各的缺陷。比如八爪鱼采集器,其 配置步骤虽然少,但是配置过程复杂,层次不清晰。它以分页页面为起点,直接对详细页面进行配置,各种界面操作没有进行分类,而是一次性让用户选择,这对于普通用户而言难度过大。

综上,当前市场上的爬虫存在的缺陷有:1、配置复杂;2、爬取效率低;3、Xpath获取步骤繁琐;4、可视化程度低。

发明内容

本发明致力于解决现有爬虫配置难、操作复杂及效率低的问题。

为达到上述目的,本发明通过以下技术方案实现:

一种基于内嵌浏览器的可视化网络爬虫系统,其特征在于,包括:

页面查看模式:包括浏览器模式、HTML元素树形结构模式、脚本页面模式和HTML源代码模式;

页面元素选择:包括单选页面元素、多选页面元素和网页元素相似选择

爬虫结构树:包括分支页面、分页页面和详细页面;配置分支页面是利用所述的页面元素选择,将某类元素提取到分支列表,加入所述的爬虫结构树。

在上述的基于内嵌浏览器的可视化网络爬虫系统,所述的单选页面元素是通过单击页面元素获取其Xpath;所述的多选页面元素是通过按住Ctrl键同时多次单击页面元素获取多个元素的Xpath;所述的网页元素相似选择是通过按住Shift键同时多次单击页面元素获取相似元素的Xpath。

在上述的基于内嵌浏览器的可视化网络爬虫系统,所述的分页页面包括:列表同类链接信息和分页信息。

在上述的基于内嵌浏览器的可视化网络爬虫系统,所述的列表同 类链接信息是利用所述的网页元素相似选择,点击两个链接,自动进行相似提取和智能计算,提取包括列表父节点Xpath、单项Item节点Xpath列表、超链接节点Xpath和链接相对Item的相对Xpath。

在上述的基于内嵌浏览器的可视化网络爬虫系统,所述的分页信息是利用所述的单选页面元素,点击分页页面中的首尾页链接,提取首尾页的Xpath和链接信息,进行智能比较算法,算出网址的格式化信息和首尾页数值索引。

在上述的基于内嵌浏览器的可视化网络爬虫系统,配置所述的详细页面是利用所述的单选页面元素,提取元素XPath,绑定数据库,为对应字段赋值。

一种基于内嵌浏览器的可视化网络爬虫分析方法,其特征在于,包括:

步骤1:分析待爬网站的层次结构,输入首页网址;

步骤2:根据网站的结构,选择对应的配置方式:

配置方式一:若是配置同类元素,且有下级链接,则选用分支页面,选择一种单选、多选或相似选择的方式,提取分支列表;

配置方式二:若是配置分页信息和列表同类链接信息,则选用分页页面,使用相似选择的方式,点击分页页面的首尾页链接,通过智能比较算法,算出网址的格式化信息和首尾页数值索引;

配置方式三:若是配置最底层的页面,则选用详细页面,通过单选元素的方式,提取每一个感兴趣的页面元素的Xpath,绑定数据库,选择对应的表信息,为字段赋值,完善表信息;

步骤3:根据配置好的爬虫方案树,程序自动按照所有分支下的详细页面内各个元素的Xpath获取(下载)元素的文本,并存入与之关联的数据库内,最终完成数据采集任务。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于武汉大学,未经武汉大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201710234111.2/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top