[发明专利]一种主机负荷智能感知的定向爬虫方法及系统在审

申请号：	201911353456.5	申请日：	2019-12-25
公开（公告）号：	CN111125488A	公开（公告）日：	2020-05-08
发明（设计）人：	凌建辉;张启航;王天昊;曹勇;王禄生;张柏礼	申请（专利权）人：	东南大学
主分类号：	G06F16/951	分类号：	G06F16/951;G06F16/955
代理公司：	南京苏高专利商标事务所(普通合伙) 32204	代理人：	冯艳芬
地址：	211102 江***	国省代码：	江苏;32
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种主机负荷智能感知定向爬虫方法系统
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种主机负荷智能感知的定向爬虫方法，其特征在于该方法包括：

(1)打开浏览器并定位到待爬取站点，通过模拟浏览器行为实现页面的跳转以及读取；

(2)根据设置的检索条件自动生成需要爬取页面的URL集合；

(3)根据爬虫任务的重要性和紧迫程度对URL集合进行优先级分级，按照优先级将URL集合划分为若干个子集合，为每个子集合分配一个或多个线程来处理；

(4)根据任务优先级和主机/网络的繁忙程度，对线程的运行情况进行调整，其中，每个线程在进行数据爬取时所采用的方法为：

A、对于URL中待爬取的条目，抓取相应内容的关键字词或标题，进行语义分析，并根据语义分析结果筛选爬取内容；

B、记录当前页面响应时间，并与历史页面响应时间比较，从而主动感知主机/网络的繁忙程度，动态地调整爬虫的爬取频度和数据量。

2.根据权利要求1所述的主机负荷智能感知的定向爬虫方法，其特征在于：步骤(1)中所述打开浏览器并定位到待爬取站点是通过采用selenium测试工具实现。

3.根据权利要求1所述的主机负荷智能感知的定向爬虫方法，其特征在于：步骤(1)中，模拟浏览器的行为是通过Xpath路径进行HTML element定位，定位成功后调用selenium测试工具的webdriver模块相应函数模拟浏览器的行为。

4.根据权利要求1所述的主机负荷智能感知的定向爬虫方法，其特征在于：步骤(1)中，若待爬取站点需要登陆，则定位到登陆界面，并通过程序执行自动登陆，使浏览器自动记录cookie。

5.根据权利要求1所述的主机负荷智能感知的定向爬虫方法，其特征在于：步骤(2)中所述URL集合通过以下方式生成：

通过待爬取站点自带检索引擎产生的URL，分析出URL中键值对的含义，得到自定义URL中的参数，生成需要爬取页面的URL集合。

6.根据权利要求1所述的主机负荷智能感知的定向爬虫方法，其特征在于：步骤(4)中所述对线程的运行情况进行调整的具体方法为：在主机/网络繁忙的时候，不分配爬取任务或只进行优先级高于阈值的任务，而将主要的采集工作放在主机/网络的闲暇时间进行。

7.根据权利要求1所述的主机负荷智能感知的定向爬虫方法，其特征在于：步骤(4)A中，所述根据语义分析结果筛选爬取内容，具体为：通过语义分析，过滤掉不符合爬取要求的数据，仅爬取符合爬取要求的数据。

8.根据权利要求1所述的主机负荷智能感知的定向爬虫方法，其特征在于：步骤(4)B中，所述动态地调整爬虫的爬取频度和数据量，具体为：若感知到当前时间段主机/网络繁忙，则放缓爬取速度，若当前时间段主机/网络闲暇，则提高爬取速度。

9.一种主机负荷智能感知的定向爬虫系统，包括处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于：所述处理器执行所述程序时实现权利要求1-8中任意一项所述的方法。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于东南大学，未经东南大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201911353456.5/1.html，转载请声明来源钻瓜专利网。

专利分类

专利文献下载