[发明专利]一种大数据网络爬虫分页选择方法和系统有效

申请号：	201710236260.2	申请日：	2017-04-12
公开（公告）号：	CN107066576B	公开（公告）日：	2019-11-12
发明（设计）人：	张志成;王纯斌;覃进学;刘佳	申请（专利权）人：	成都四方伟业软件股份有限公司
主分类号：	G06F16/951	分类号：	G06F16/951;G06F16/955
代理公司：	成都金英专利代理事务所(普通合伙) 51218	代理人：	袁英
地址：	610041 四川省***	国省代码：	四川;51
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明公开了一种大数据网络爬虫分页选择方法和系统。方法包括以下步骤：解析爬虫脚本；获取匹配符，对爬虫脚本内容中的标签信息进行匹配；将匹配成功的标签的特征值存入URL队列中；获取URL队列中的URL连接地址，校验URL连接地址；获取校验后的URL连接地址，进行地址匹配；解析地址匹配成功的URL地址的网页，获取分页信息；系统包括第一解析模块，第一匹配模块，存储模块，获取模块，第二匹配模块，第二解析模块和配置模块。本发明解决了当网页中的页面按钮HTML结构发生改变时，不能循环爬取网页数据的问题，能够精准识别数据的分页标签，有效防止循环爬取数据过程中断，提升了网页数据的爬取效率。
搜索关键词：	连接地址爬虫地址匹配解析模块匹配模块网络爬虫网页数据校验大数据分页解析匹配网页标签信息存储模块分页标签分页信息获取模块脚本内容配置模块匹配成功数据过程脚本按钮页面标签中断成功
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

1.一种大数据网络爬虫分页选择方法，其特征在于，它包括以下步骤：S0：配置，爬虫脚本中的分页配置；所述的配置步骤S0，包括以下子步骤：第一配置，配置分页组的定位符，分页组是一组选定标签A的集合，其业务含义为一系列页数标签，即A标签；第二配置，配置页面按钮的匹配符，该匹配符是用于做智能分页的匹配符；第三配置，配置标签的属性元素，该属性元素为分页组中所有按钮的A标签的Href属性；第四配置，配置标题元素，该标题元素为分页组中所有按钮的A标签的title的属性值；第五配置，配置文本元素，该文本元素为分页组中所有按钮的A标签的txt的属性值；S1：第一解析，解析爬虫脚本；S2：第一匹配，获取匹配符，对爬虫脚本内容中的标签信息进行匹配；S3：存储，将匹配成功的标签的特征值存入URL队列中；S4：获取及校验，获取URL队列中的URL连接地址，校验URL连接地址；S5：第二匹配，获取校验后的URL连接地址，进行地址匹配；S6：第二解析，解析地址匹配成功的URL地址的网页，获取分页信息。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于成都四方伟业软件股份有限公司，未经成都四方伟业软件股份有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201710236260.2/，转载请声明来源钻瓜专利网。

上一篇：基于相对位置的分布式编队球形包围追踪未知目标的方法
下一篇：一种周期性一维条码信号加强的方法和模块

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种大数据网络爬虫分页选择方法和系统有效

专利文献下载