[发明专利]一种页面爬取规则的配置方法及装置有效

申请号：	201710884074.X	申请日：	2017-09-26
公开（公告）号：	CN110020068B	公开（公告）日：	2021-10-15
发明（设计）人：	满悦	申请（专利权）人：	北京国双科技有限公司
主分类号：	G06F16/953	分类号：	G06F16/953
代理公司：	北京鼎佳达知识产权代理事务所(普通合伙) 11348	代理人：	王伟锋;刘铁生
地址：	100083 北京市海淀区***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种页面规则配置方法装置
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开了一种页面爬取规则的配置方法及装置，涉及计算机技术领域，主要目的在于能够自动生成页面爬取规则，并提高爬取规则的生成速度，本发明的主要技术方案为：从需要配置爬取规则的页面中选取待爬取页面元素；根据所述待爬取页面元素对应的属性信息，生成页面元素的路径信息；通过设置与所述待爬取页面元素相匹配的正则表达式模板，生成与所述待爬取页面元素的内容相匹配的正则表达式；根据所述待爬取页面元素在待爬取页面中的显示规则以及所述待爬取页面元素在待爬取页面中的位置信息配置所述待爬取页面的页面爬取规则。本发明主要用于页面爬取规则的配置。

技术领域

本发明涉及计算机技术领域，尤其涉及一种页面爬取规则的配置方法及装置。

背景技术

随着云计算和大数据技术的深入发展，网页上的大量结构化和非结构化的信息搜索与挖掘技术成为一个热点研究问题。在分析数据时往往会花费大量的时间和精力，在大数据时代，爬虫技术成为获取网络数据的重要方式。

通常在爬虫爬取页面之前需要手动配置爬取规则，爬取规则包含爬取页面元素的路径信息以及需要爬取内容校验的正则表达式。由于网页结构的复杂多变，现有技术在配置爬取规则的过程中，首先采取人工手动的方式对页面元素进行定位，然后对页面元素进行分析，去除页面元素路径信息中临时生成的干扰信息，最后通过人工编写页面元素的路径信息以及需要爬取内容校验的正则表达式，生成爬取规则。

然而，随着爬取页面数量的不断增加，通过人工编写页面元素路径以及需要爬取内容校验的正则表达式需要编写人员具有一定的专业知识和分析能力，并且耗费时间以及精力，导致爬取规则的生成速度较慢。

发明内容

有鉴于此，本发明提供一种页面爬取规则的配置方法及装置，主要目的在于能够自动生成页面爬取规则，并提高爬取规则的生成速度。

为了解决上述问题，本发明主要提供如下技术方案：

一方面，本发明实施例提供了一种页面爬取规则的配置方法，包括：

从需要配置爬取规则的页面中选取待爬取页面元素；

根据所述待爬取页面元素对应的属性信息，生成页面元素的路径信息，所述页面元素的路径信息用于记录所述待爬取页面元素在待爬取页面中的位置信息；

通过设置与所述待爬取页面元素相匹配的正则表达式模板，生成与所述待爬取页面元素的内容相匹配的正则表达式，所述正则表达式用于记录所述待爬取页面元素在待爬取页面中的显示规则；

根据所述待爬取页面元素在待爬取页面中的显示规则以及所述待爬取页面元素在待爬取页面中的位置信息配置所述待爬取页面的页面爬取规则。

进一步地，在所述从需要配置爬取规则的页面中确定待爬取页面元素之前，所述方法还包括：

启动浏览器插件，从所述浏览器插件中确定需要配置爬取规则的页面内容。

进一步地，所述根据所述待爬取页面元素对应的属性信息，生成页面元素的路径信息包括：