[发明专利]网页爬取方法及装置在审
申请号: | 201710085587.4 | 申请日: | 2017-02-16 |
公开(公告)号: | CN108446287A | 公开(公告)日: | 2018-08-24 |
发明(设计)人: | 余清富 | 申请(专利权)人: | 北京国双科技有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京康信知识产权代理有限责任公司 11240 | 代理人: | 韩建伟;张永明 |
地址: | 100086 北京市海淀区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 网站 访问请求 网页 统一资源定位符 网页数据 截取 访问 | ||
1.一种网页爬取方法,其特征在于,包括:
从第一网站截取访问所述第一网站的访问请求,其中,所述访问请求的来源为第二网站;
从所述来源的统一资源定位符中获取所述第二网站的信息,其中,所述第二网站的信息包括待爬取用户在所述第二网站的账号信息;
根据所述第二网站的信息从所述第二网站上爬取网页。
2.根据权利要求1所述的方法,其特征在于,根据所述信息从所述第二网站上爬取网页包括:
通过多线程中的爬取线程使用预定账号登录所述第二网站,其中,所述多线程包括多个所述爬取线程,每个所述爬取线程对应一个所述预定账号;
在使用预定账号登录所述第二网站之后,使用所述第二网站的账号从所述第二网站上爬取网页。
3.根据权利要求2所述的方法,其特征在于,使用所述第二网站的账号从所述第二网站上爬取网页包括:
获取预先配置的限制信息;
控制所述爬取线程根据所述限制信息中的访问速度从所述第二网站上爬取网页。
4.根据权利要求2所述的方法,其特征在于,通过多线程中的爬取线程使用预定账号登录所述第二网站还包括:
为所述多线程中的每个线程绑定一个固定的网络地址。
5.根据权利要求2所述的方法,其特征在于,在登录所述第二网站需要验证码的情况下,使用所述预定账号登录所述第二网站包括以下至少之一:
根据预设方式输入验证码使用所述预定账号登录所述第二网站;
获取以图片形式出现的所述验证码,对所述图片中的验证码进行识别,并根据识别出的所述验证码使用所述预定账号登录所述第二网站。
6.根据权利要求5所述的方法,其特征在于,对所述图片中的验证码进行识别包括:
根据数据模型对所述图片中的验证码进行识别,其中,所述数据模型是根据多个训练数据训练得到的,所述训练数据包括:预先获取到的所述第二网站的验证码图片与该验证码图片对应的验证码。
7.根据权利要求5所述的方法,其特征在于,对所述图片中的验证码进行识别包括:
获取所述图片中的多个特征信息,其中,所述特征信息用于区分所述验证码和所述图片的背景;
根据所述多个特征信息对所述图片中的验证码进行识别。
8.一种网页爬取装置,其特征在于,包括:
截取单元,用于从第一网站截取访问所述第一网站的访问请求,其中,所述访问请求的来源为第二网站;
获取单元,用于从所述来源的统一资源定位符中获取所述第二网站的信息,其中,所述第二网站的信息包括待爬取用户在所述第二网站的账号信息;
爬取单元,用于根据所述第二网站的信息从所述第二网站上爬取网页。
9.根据权利要求8所述的装置,其特征在于,所述爬取单元包括:
登录模块,用于通过多线程中的爬取线程使用预定账号登录所述第二网站,其中,所述多线程包括多个所述爬取线程,每个所述爬取线程对应一个所述预定账号;
爬取模块,用于在使用预定账号登录所述第二网站之后,使用所述第二网站的账号从所述第二网站上爬取网页。
10.根据权利要求9所述的装置,其特征在于,所述爬取模块包括:
第一获取模块,用于获取预先配置的限制信息;
控制模块,用于控制所述爬取线程根据所述限制信息中的访问速度从所述第二网站上爬取网页。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京国双科技有限公司,未经北京国双科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710085587.4/1.html,转载请声明来源钻瓜专利网。