[发明专利]一种基于指定电子商务网站的定向爬虫的实现方法在审
申请号: | 201410266881.1 | 申请日: | 2014-06-13 |
公开(公告)号: | CN104050037A | 公开(公告)日: | 2014-09-17 |
发明(设计)人: | 朱全银;周泓;李翔;潘禄;刘文儒;戎圣吉;张宇洋;曹苏群;王留洋;周蕾 | 申请(专利权)人: | 淮阴工学院 |
主分类号: | G06F9/48 | 分类号: | G06F9/48 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 223005 江*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种基于指定电子商务网站的定向爬虫的实现方法,本发明属于WEB数据采集领域,为提高爬虫的分析效率、爬准率,降低因网页内容变动地而导致的爬虫失效率,提高代码的可读性和健壮性;在广义爬虫的基础上,利用队列对任务的顺序进行管理、使用线程池管理机制实现多线程的网页内容分析来提高爬取效率,利用Python作为实现语言,使用CSS选择器和正则表达式结合的手法对指定页面信息进行抓取,大幅提高了爬虫的分析效率、可读性及容错率,从而形成的一种专用于分析指定电子商务网站商城商品信息的聚焦爬虫,该方法提高了爬虫的效率与爬准率,增强了爬虫的适应性和健壮性。本发明为电商价格分析提供了一种稳定便利的数据来源。 | ||
搜索关键词: | 一种 基于 指定 电子商务 网站 定向 爬虫 实现 方法 | ||
【主权项】:
一种基于指定电子商务网站的定向爬虫的实现方法,其特征在于:利用队列对任务的顺序进行管理,线程池中的子线程通过预先制定的模板从指定电子商务网站上获取商品的信息或者往队列中追加任务,进而提高了爬虫的运行效率,也提高了爬虫的爬准率,具体步骤包括以下步骤:步骤1、初始化指定电子商务网站的商品列表入口URL;步骤2、将初始化的URL添加到任务队列;步骤3、开启线程池;步骤4、线程池从队列中获取任务并分配给子线程;步骤5、子线程调用判断模板对URL进行判断,当任务是处理商品列表的页面,执行步骤6到步骤7;当任务是处理电子商品信息的页面,执行步骤8到步骤13;步骤6、子线程调用分析商品列表URL的匹配模板,对商品列表URL的页面信息进行分析,获取该页面所有商品的URL以及下一个商品列表的URL,将单个电子商品页面URL添加到任务队列中,如果下一个商品列表的URL存在,将下一个商品列表的URL添加到队列中,否则不添加;步骤7、结束该子线程,执行步骤14;步骤8、子线程利用分析电子商品的匹配模板对该线程读取的URL的页面信息进行分析,得到该电子商品的价格信息和商品编号,执行步骤9,否则执行步骤17;步骤9、子线程调用数据存储模块将价格信息和商品编号存入数据库,执行步骤10;步骤10、根据该电子商品的商品编号,查询数据库中是否存在该电子商品的参数信息,若该电子商品的参数信息存在,执行步骤13;当该电子商品的参数信息不存在,执行步骤11;步骤11、子线程利用电子商品的参数匹配模板对该线程读取的URL的页面信息进行分析,得到该电子商品的参数信息,包括:商品编号、标题、品牌、型号、类别信息、预览图片的地址;步骤12、子线程调用数据存储模块将参数信息存入数据库,执行步骤18;步骤13、结束该子线程;步骤14、检测当前任务队列是否还有任务存在,当有任务存在,执行步骤4;当没有任务存在,执行步骤15;步骤15、检测是否还有子线程在运行,当有子线程在运行,执行步骤14;当没有子线程在运行,执行步骤16;步骤16、将当次的抓取统计信息写入日志文件,结束程序;步骤17、将错误信息写入日志文件,结束子线程,执行步骤14;步骤18、将分析信息写入日志文件,结束子进程,执行步骤14。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于淮阴工学院,未经淮阴工学院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201410266881.1/,转载请声明来源钻瓜专利网。