[发明专利]一种基于内嵌浏览器的可视化网络爬虫系统及分析方法在审

申请号：	201710234111.2	申请日：	2017-04-11
公开（公告）号：	CN107092670A	公开（公告）日：	2017-08-25
发明（设计）人：	李煜;王小龙;李鹏	申请（专利权）人：	武汉大学
主分类号：	G06F17/30	分类号：	G06F17/30
代理公司：	武汉科皓知识产权代理事务所(特殊普通合伙)42222	代理人：	鲁力
地址：	430072 湖***	国省代码：	湖北;42
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于浏览器可视化网络爬虫系统分析方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

技术领域

本发明属于计算机网络技术领域，特别是涉及一种基于内嵌浏览器的可视化网络爬虫系统及分析方法。

背景技术

网络爬虫是一种高效的信息抓取工具，它集成了搜索引擎技术，并通过技术手段进行优化，用以从互联网搜索、抓取并保存任何通过HTML超文本标记语言进行标准化的网页信息。网络爬虫分为通用网络爬虫如谷歌、百度浏览器和主题网络爬虫等。由于通用网络爬虫的检索效果不理想，准确率和召回率都很低，所以主题网络爬虫逐渐成为专业用户及研究人员的首选。主题网络爬虫主要采用最佳优先抓取策略，即按照一定的网页评价算法，计算网页与主题的相关性，选取“价值”最高的网页中的链接进行抓取。但是主题网络爬虫存在一定的问题和缺陷，如当前的网页评价算法不完善，配置复杂，爬取效率低等。

另外，网页元素Xpath获取需要一些组件或浏览器的辅助，以Google浏览器为例，具体方法为：打开Chrome→输入网址→右击感兴趣的元素→点击“检查”→右击开发者页面对应元素→点击“Copy”→点击“Copy Xpath”，完成网页元素Xpath获取任务。很明显这一过程过于繁琐，若元素数量多，则会耗费大量精力。

目前，国内外与可视化爬虫配置相关的文献少之又少，而已有的成熟的可视化网络爬虫不多且各有各的缺陷。比如八爪鱼采集器，其配置步骤虽然少，但是配置过程复杂，层次不清晰。它以分页页面为起点，直接对详细页面进行配置，各种界面操作没有进行分类，而是一次性让用户选择，这对于普通用户而言难度过大。

综上，当前市场上的爬虫存在的缺陷有：1、配置复杂；2、爬取效率低；3、Xpath获取步骤繁琐；4、可视化程度低。

发明内容

本发明致力于解决现有爬虫配置难、操作复杂及效率低的问题。

为达到上述目的，本发明通过以下技术方案实现：

一种基于内嵌浏览器的可视化网络爬虫系统，其特征在于，包括：

页面查看模式：包括浏览器模式、HTML元素树形结构模式、脚本页面模式和HTML源代码模式；

页面元素选择：包括单选页面元素、多选页面元素和网页元素相似选择

爬虫结构树：包括分支页面、分页页面和详细页面；配置分支页面是利用所述的页面元素选择，将某类元素提取到分支列表，加入所述的爬虫结构树。

在上述的基于内嵌浏览器的可视化网络爬虫系统，所述的单选页面元素是通过单击页面元素获取其Xpath；所述的多选页面元素是通过按住Ctrl键同时多次单击页面元素获取多个元素的Xpath；所述的网页元素相似选择是通过按住Shift键同时多次单击页面元素获取相似元素的Xpath。

在上述的基于内嵌浏览器的可视化网络爬虫系统，所述的分页页面包括：列表同类链接信息和分页信息。

在上述的基于内嵌浏览器的可视化网络爬虫系统，所述的列表同类链接信息是利用所述的网页元素相似选择，点击两个链接，自动进行相似提取和智能计算，提取包括列表父节点Xpath、单项Item节点Xpath列表、超链接节点Xpath和链接相对Item的相对Xpath。

在上述的基于内嵌浏览器的可视化网络爬虫系统，所述的分页信息是利用所述的单选页面元素，点击分页页面中的首尾页链接，提取首尾页的Xpath和链接信息，进行智能比较算法，算出网址的格式化信息和首尾页数值索引。

在上述的基于内嵌浏览器的可视化网络爬虫系统，配置所述的详细页面是利用所述的单选页面元素，提取元素XPath，绑定数据库，为对应字段赋值。

一种基于内嵌浏览器的可视化网络爬虫分析方法，其特征在于，包括：

步骤1：分析待爬网站的层次结构，输入首页网址；

步骤2：根据网站的结构，选择对应的配置方式：

配置方式一：若是配置同类元素，且有下级链接，则选用分支页面，选择一种单选、多选或相似选择的方式，提取分支列表；

配置方式二：若是配置分页信息和列表同类链接信息，则选用分页页面，使用相似选择的方式，点击分页页面的首尾页链接，通过智能比较算法，算出网址的格式化信息和首尾页数值索引；

配置方式三：若是配置最底层的页面，则选用详细页面，通过单选元素的方式，提取每一个感兴趣的页面元素的Xpath，绑定数据库，选择对应的表信息，为字段赋值，完善表信息；

步骤3：根据配置好的爬虫方案树，程序自动按照所有分支下的详细页面内各个元素的Xpath获取(下载)元素的文本，并存入与之关联的数据库内，最终完成数据采集任务。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于武汉大学，未经武汉大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201710234111.2/2.html，转载请声明来源钻瓜专利网。

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理
G06F17-00 特别适用于特定功能的数字计算设备或数据处理设备或数据处理方法
G06F17-10 .复杂数学运算的
G06F17-20 .处理自然语言数据的
G06F17-30 .信息检索；及其数据库结构
G06F17-40 .数据的获取和记录
G06F17-50 .计算机辅助设计

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于内嵌浏览器的可视化网络爬虫系统及分析方法在审

专利文献下载