[发明专利]一种爬虫爬取的电商商品的存储方法及系统在审
申请号: | 201611009724.8 | 申请日: | 2016-11-15 |
公开(公告)号: | CN106649576A | 公开(公告)日: | 2017-05-10 |
发明(设计)人: | 李巧如;王俊;邱鹿;孙超;于永新;袁颖盛;张和林;段云涛 | 申请(专利权)人: | 北京集奥聚合科技有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京和信华成知识产权代理事务所(普通合伙)11390 | 代理人: | 胡剑辉 |
地址: | 100085 北京市海*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 爬虫 商品 存储 方法 系统 | ||
技术领域
本发明涉及大数据处理的技术领域,尤其涉及一种爬虫爬取的电商商品的存储方法,以及爬虫爬取的电商商品的存储系统。
背景技术
网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。
在互联上抓取用户的信用数据是信用评级的重要手段,例如从支付宝网站抓取的交易记录就能从侧面反映出用户的经济实力。
目前一般使用多机多线程实现,在断网的情况下存储会丢数据。而且,将所有电商商品都存一张表中,会存在id重复问题,如果只想读取某一电商的数据速度相对会慢。
发明内容
为克服现有技术的缺陷,本发明要解决的技术问题是提供了一种爬虫爬取的电商商品的存储方法,其能够解决不同网站同一id的存储问题,不同电商网站的数据能同时并存,读取速度快。
本发明的技术方案是:这种爬虫爬取的电商商品的存储方法,该方法包括以下步骤:
(1)爬虫爬取多个电商网站的网页,然后解析出网页中的商品数据;
(2)将商品数据存储时根据url解析出域名;
(3)将此域名作为表名,再根据url解析出id,以此id作为主键,将所需其它信息存储。
本发明通过爬虫爬取多个电商网站的网页,然后解析出网页中的商品数据,将商品数据存储时根据url解析出域名,将此域名作为表名,再根据url解析出id,将需要的各项其他信息存储,所以能够解决不同网站同一id的存储问题,不同电商网站的数据能同时并存,读取速度快。
还提供了一种爬虫爬取的电商商品的存储系统,该系统包括:
爬取模块,根据配置来爬取多个电商网站的网页,然后解析出网页中的商品数据;
域名解析模块,根据配置来将商品的url解析出域名;
存储模块,将此域名作为表名,再根据url解析出id,以此id作为主键,将所需其它信息存储。
附图说明
图1所示为根据本发明的爬虫爬取的电商商品的存储方法的流程图。
具体实施方式
如图1所示,这种爬虫爬取的电商商品的存储方法,该方法包括以下步骤:
(1)爬虫爬取多个电商网站的网页,然后解析出网页中的商品数据;
(2)将商品数据存储时根据url解析出域名;
(3)将此域名作为表名,再根据url解析出id,以此id作为主键,将所需其它信息存储。
本发明通过爬虫爬取多个电商网站的网页,然后解析出网页中的商品数据,将商品数据存储时根据url解析出域名,将此域名作为表名,再根据url解析出id作为主键,将需要的各项其他信息存储,所以能够解决不同网站同一id的存储问题,不同电商网站的数据能同时并存,读取速度快。
另外,在所述步骤(1)中,通过java来实现爬虫爬取,配置好参数,参数包括每台服务器的线程数和需要爬取的电商种子url。
另外,在所述步骤(2)中,通过java读取配置解析出域名。
另外,在所述步骤(3)中,通过java编写程序将数据存储到hbase中实现存储。
另外,在所述步骤(3)中,以域名为表名,原网站id作为表主键。
本领域普通技术人员可以理解,实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,所述的程序可以存储于一计算机可读取存储介质中,该程序在执行时,包括上述实施例方法的各步骤,而所述的存储介质是硬盘。因此,与本发明的方法相对应的,本发明还同时包括一种爬虫爬取的电商商品的存储系统,该系统通常以与方法各步骤相对应的功能模块的形式表示。使用该方法的系统包括:
爬取模块,根据配置来爬取多个电商网站的网页,然后解析出网页中的商品数据;
域名解析模块,根据配置来将商品数据的url解析出域名;
存储模块,将此域名作为表名,再根据url解析出id,以此id作为主键,将所需其它信息存储。
另外,在所述爬取模块中,通过java来实现爬虫爬取,配置好参数,参数包括每台服务器的线程数和需要爬取的电商种子url。
另外,在所述域名解析模块中,通过java读取配置解析出域名。
另外,在所述存储模块中,通过java编写程序将数据存储到hbase中实现存储。
另外,在所述存储模块中,以域名为表名,以原网站id作为表主键。
本发明的有益效果如下:
1.能实现不同网站相同id的存储;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京集奥聚合科技有限公司,未经北京集奥聚合科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201611009724.8/2.html,转载请声明来源钻瓜专利网。