[发明专利]微信文章以及公众号的获取方法及获取系统有效
申请号: | 201510609672.7 | 申请日: | 2015-09-22 |
公开(公告)号: | CN105320740B | 公开(公告)日: | 2018-10-16 |
发明(设计)人: | 薛一波;易成岐;郭泽豪 | 申请(专利权)人: | 清华大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京路浩知识产权代理有限公司 11002 | 代理人: | 李相雨 |
地址: | 100084 北京市海*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明提供了一种微信文章以及公众号的获取方法以及获取系统,本发明在爬虫正常爬取的基础上,接入第三方平台来识别验证码,解决了搜狗搜索时出现的验证码问题,保证爬虫稳定地爬取;另外爬虫利用文章ID以及公众微信号做布隆过滤,保证了微信爬虫不会由于搜狗搜索平台URL的变化而无法正常运行,同时通过增量列表记录了上次爬虫更新的状态,保证了爬虫的增量式爬取,提高了爬虫的效率,本发明能够高效、稳定、全面地爬取微信公众号和文章,具有很好的可用性。 | ||
搜索关键词: | 爬虫 获取系统 验证码 第三方平台 搜索平台 可用性 增量式 保证 过滤 搜索 更新 记录 | ||
【主权项】:
1.一种微信文章以及公众号的获取方法,其特征在于,所述方法包括以下步骤:S1、获取微信检索所需关键字,对于每一个关键字,为其构建1个或多个搜索URL,并将构建的所述搜索URL放入请求队列;S2、启动爬虫组件,对每一个关键字的每一个搜索URL以及对应于所述搜索URL的页面上未爬取的URL进行爬取;其中所述步骤S2中爬取步骤具体为:S21、判断当前爬取页面是否是验证码页面,若当前爬取页面是验证码页面,则执行步骤S22,否则执行步骤S23;S22、获取当前页面的验证码,并上传至第三方平台,由所述第三方平台进行验证码识别,之后由模拟验证码提交表单提交验证码,之后执行所述步骤S21;S23、判断当前爬取页面的URL是否为当前关键字对应的多个所述搜索URL中的一个,若是执行步骤S24,否则执行步骤S30;S24、利用微信的文章ID号以及微信号做布隆过滤,筛选出当前爬取页面中未爬取的微信文章的URL以及对应的微信公众号的URL,并放入所述请求队列;对于微信文章的URL以及微信公众号的URL中的每一个URL,执行步骤S21;S25、判断当前爬取页面是否为当前关键字的第一个搜索URL对应的页面,若是执行步骤S26,否则执行步骤S27;S26、获取当前爬取页面的第一个文章的ID号,并更新入增量列表,之后执行步骤S27;其中所述增量列表用于存储每一个关键字的第一个页面的第一个文章的ID号;S27、判断当前爬取页面是否为当前关键字的最后一个搜索URL对应的页面,若是,则当前关键字的爬取操作完成,执行步骤S29;否则执行步骤S28;S28、判断当前爬取页面的下一个搜索URL对应的页面是否已经爬过,若是,执行步骤S29;否则,将当前爬取页面的下一个搜索URL放入所述请求队列中,并执行步骤S21;S29、判断当前关键字是否是最后一个关键字,若是,爬虫结束;否则,执行步骤S21进行下一个关键字的搜索URL以及搜索URL页面上未爬取的URL的爬取操作,S30、从当前爬取页面中解析得到微信公众号或者微信文章,并将分析得到的微信公众号或者微信文章进行处理,之后进行存储。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于清华大学,未经清华大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201510609672.7/,转载请声明来源钻瓜专利网。
- 上一篇:一种程序写入设备
- 下一篇:磨料颗粒、制备磨料颗粒的方法以及磨料制品