[发明专利]基于pythonQT及智能算法的快速规则定制方法有效
申请号: | 201811019150.1 | 申请日: | 2018-09-03 |
公开(公告)号: | CN109271145B | 公开(公告)日: | 2021-12-14 |
发明(设计)人: | 邢航;李森;汪明 | 申请(专利权)人: | 科大国创软件股份有限公司 |
主分类号: | G06F8/20 | 分类号: | G06F8/20;G06F16/9535;G06F16/954 |
代理公司: | 上海精晟知识产权代理有限公司 31253 | 代理人: | 冯子玲 |
地址: | 230000 安*** | 国省代码: | 安徽;34 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 pythonqt 智能 算法 快速 规则 定制 方法 | ||
本发明公开了基于pythonQT及智能算法的快速规则定制方法,涉及网页规则定制技术领域。本发明包括输入待爬取页面的URL,客户端通过URL加载页面;基于selenium提取页面中导航列表项;通过智能算法提取详情页正文部分;通过js技术从页面中获取页面元素规则,返回客户端;规则上传服务端,后台爬虫程序根据规则进行爬取。本发明通过selenium提取页面中导航列表项并过滤掉纵坐标大于浏览器高度的a标签以及横坐标相同的个数小于基准值的a标签;之后再通过智能算法提取详情页正文部分,避免了通过人工分析网站定制网页规则不适用多种繁杂的网站页面规则定制的问题,适用于与不同网站网页规则定制,提高网页规则定制效率。
技术领域
本发明属于网页规则定制技术领域,特别是涉及基于pythonQT及智能算法的快速规则定制方法。
背景技术
随着大数据技术的快速发展,数据作为其根本研究对象,发挥着越来越举足轻重的作用。数据如何高效快速地获取,成为了目前研究的重要课题之一。而爬虫作为互联网数据获取的基本技术手段,高效获取数据,优化改善势目前的技术势在必行。目前爬虫获取网页数据的基本思路是:
(1)通过给定的目标网页地址,爬虫发起对该页面的请求,即发送一个Request,请求可以包含额外的hearder等信息。
(2)获取请求服务器后响应的内容。如果服务器能够正常响应,会得到一个Response,Response的内容便是所要获取页面的内容。
(3)解析内容。得到网页内容后,爬虫便会分析页面结构,爬取指定内容。
(4)保存数据。保存数据形式不一,可以存为文本,也可以保存到数据库,又或者保存为特定格式的文件。
对步骤(3)中的内容解析,目前常用的技术手段基本是,技术人员通过浏览器人工分析网站的页面结构,给出具体规则,然后后台爬虫根据规则对页面进行数据爬取。如果爬取单一的网站,这种方式是可取的;然而针对大量网站,这种逐一提取页面规则的方式显然是不可取的,耗时耗力。在效率上存在一定的瓶颈。归根揭底就是没有统一的工具来获取待爬取页面的元素规则。
本发明致力于研发一种基于pythonQT及智能算法的快速规则定制方法,用于解决现有的通过人工分析网站定制网页规则不适用多种繁杂的网站页面规则定制且耗时耗力、效率较低的问题。
发明内容
本发明的目的在于提供基于pythonQT及智能算法的快速规则定制方法,通过selenium提取页面中导航列表项并过滤掉不符合的标签;同时通过智能算法提取详情页正文部分,实现了多种不同网站的网页规则的定制,解决了现有的通过人工分析网站定制网页规则不适用多种繁杂的网站页面规则定制且耗时耗力、效率较低的问题。
为解决上述技术问题,本发明是通过以下技术方案实现的:
本发明为基于pythonQT及智能算法的快速规则定制方法,包括如下步骤:
S00:输入待爬取页面的URL,客户端通过URL加载页面;
S01:基于selenium提取页面中导航列表项;
S02:通过智能算法提取详情页正文部分;
S03:通过js技术从页面中获取页面元素规则,返回客户端;
S04:规则上传服务端,后台爬虫程序根据规则进行爬取;
其中,S01中提取页面中导航列表项具体过程如下:
A00:通过selenium标记页面中的可见a标签;
A01:对标记过的a标签进行过滤;
其中,S02中通过智能算法提取详情页正文部分具体过程如下:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于科大国创软件股份有限公司,未经科大国创软件股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811019150.1/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种用于学习的云集成环境开发方法
- 下一篇:针对电能表软件的模块化设计方法