[发明专利]一种爬虫模拟登陆采集的方法在审
申请号: | 201410196086.X | 申请日: | 2014-05-12 |
公开(公告)号: | CN103984719A | 公开(公告)日: | 2014-08-13 |
发明(设计)人: | 程瑶 | 申请(专利权)人: | 浪潮电子信息产业股份有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;H04L9/32 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 250101 山东*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明提供一种爬虫模拟登陆采集的方法,其具体实现过程为:设置采集请求模块、身份认证模块、采集下载模块,其中采集请求模块实现对待采集页面发送采集请求;身份认证模块实现待采集网站自动化登录认证;采集下载模块实现对待采集页面进行采集。该一种爬虫模拟登陆采集的方法和现有技术相比,可以实现采集需要用户认证后才能采集的网页;解决了需要用户认证才能进行访问的页面采集问题,提高了网络采集的全面性,实用性强,易于推广。 | ||
搜索关键词: | 一种 爬虫 模拟 登陆 采集 方法 | ||
【主权项】:
一种爬虫模拟登陆采集的方法,其特征在于其具体实现过程为:一、首先设置采集请求模块、身份认证模块、采集下载模块,其中采集请求模块实现对待采集页面发送采集请求;身份认证模块实现待采集网站自动化登录认证;采集下载模块实现对待采集页面进行采集;二、通过浏览器自带的网络监听工具监听网络数据包,查看用户登录过程发送的POST包;三、身份认证模块实现对步骤二中POST包内容再现,发送到待采集网页;四、身份认证模块实现对待采集网站服务器返回值的记录;五、采集请求模块把步骤四中返回的相关记录值和采集请求做集成处理;六、采集请求模块发送对待采集页面的采集请求;七、采集下载模块实现对待采集页面的采集;八、如果不需要模拟登录采集,只需要进行步骤五和六。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浪潮电子信息产业股份有限公司,未经浪潮电子信息产业股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201410196086.X/,转载请声明来源钻瓜专利网。