[发明专利]网页爬取方法及装置在审
申请号: | 201710085587.4 | 申请日: | 2017-02-16 |
公开(公告)号: | CN108446287A | 公开(公告)日: | 2018-08-24 |
发明(设计)人: | 余清富 | 申请(专利权)人: | 北京国双科技有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京康信知识产权代理有限责任公司 11240 | 代理人: | 韩建伟;张永明 |
地址: | 100086 北京市海淀区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 网站 访问请求 网页 统一资源定位符 网页数据 截取 访问 | ||
本发明公开了一种网页爬取方法及装置。其中,该方法包括:从第一网站截取访问第一网站的访问请求,其中,访问请求的来源为第二网站;从来源的统一资源定位符中获取第二网站的信息,其中,第二网站的信息包括待爬取用户在第二网站的账号;根据第二网站的信息从第二网站上爬取网页。本发明解决了无法准确地获取网页数据的技术问题。
技术领域
本发明涉及网页处理领域,具体而言,涉及一种网页爬取方法及装置。
背景技术
微博在中国互联网的社交平台上占用重要的地位,拥有着巨额数量的用户基础,也带来了同样数量众多的数据信息,为了实行对微博内的众多数据实行监测,需要获取微博所在网页的数据,但是在现有技术中,作为网站监测数据采集方,由于微博网站上的网页数据较大,从而获取网页数据的难度较大,并且获取的数据也不准确。
针对上述无法准确地获取网页数据的问题,目前尚未提出有效的解决方案。
发明内容
本发明实施例提供了一种网页爬取方法及装置,以至少解决无法准确地获取网页数据的技术问题。
根据本发明实施例的一个方面,提供了一种网页爬取方法包括:从第一网站截取访问所述第一网站的访问请求,其中,所述访问请求的来源为第二网站;从所述来源的统一资源定位符中获取所述第二网站的信息,其中,所述第二网站的信息包括待爬取用户在所述第二网站的账号信息;根据所述第二网站的信息从所述第二网站上爬取网页。
进一步地,根据所述信息从所述第二网站上爬取网页包括:通过多线程中的爬取线程使用预定账号登录所述第二网站,其中,所述多线程包括多个所述爬取线程,每个所述爬取线程对应一个所述预定账号;在使用预定账号登录所述第二网站之后,使用所述第二网站的账号从所述第二网站上爬取网页。
进一步地,使用所述第二网站的账号从所述第二网站上爬取网页包括:获取预先配置的限制信息;控制所述爬取线程根据所述限制信息中的访问速度从所述第二网站上爬取网页。
进一步地,通过多线程中的爬取线程使用预定账号登录所述第二网站还包括:为所述多线程中的每个线程绑定一个固定的网络地址。
进一步地,在登录所述第二网站需要验证码的情况下,使用所述预定账号登录所述第二网站包括以下至少之一:根据预设方式输入验证码使用所述预定账号登录所述第二网站;获取以图片形式出现的所述验证码,对所述图片中的验证码进行识别,并根据识别出的所述验证码使用所述预定账号登录所述第二网站。
进一步地,对所述图片中的验证码进行识别包括:根据数据模型对所述图片中的验证码进行识别,其中,所述数据模型是根据多个训练数据训练得到的,所述训练数据包括:预先获取到的所述第二网站的验证码图片与该验证码图片对应的验证码。
进一步地,对所述图片中的验证码进行识别包括:获取所述图片中的多个特征信息,其中,所述特征信息用于区分所述验证码和所述图片的背景;根据所述多个特征信息对所述图片中的验证码进行识别。
根据本发明实施例的另一个方面,提供了一种网页爬取装置,包括:截取单元,用于从第一网站截取访问所述第一网站的访问请求,其中,所述访问请求的来源为第二网站;获取单元,用于从所述来源的统一资源定位符中获取所述第二网站的信息,其中,所述第二网站的信息包括待爬取用户在所述第二网站的账号信息;爬取单元,用于根据所述第二网站的信息从所述第二网站上爬取网页。
进一步地,所述爬取单元包括:登录模块,用于通过多线程中的爬取线程使用预定账号登录所述第二网站,其中,所述多线程包括多个所述爬取线程,每个所述爬取线程对应一个所述预定账号;爬取模块,用于在使用预定账号登录所述第二网站之后,使用所述第二网站的账号从所述第二网站上爬取网页。
进一步地,所述爬取模块包括:第一获取模块,用于获取预先配置的限制信息;控制模块,用于控制所述爬取线程根据所述限制信息中的访问速度从所述第二网站上爬取网页。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京国双科技有限公司,未经北京国双科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710085587.4/2.html,转载请声明来源钻瓜专利网。