[发明专利]一种抓取商城网站多级菜单并保存的方法在审
申请号: | 201811046461.7 | 申请日: | 2018-09-08 |
公开(公告)号: | CN110888632A | 公开(公告)日: | 2020-03-17 |
发明(设计)人: | 陈林;张来卿;庞严冬 | 申请(专利权)人: | 珠海横琴盛达兆业科技投资有限公司 |
主分类号: | G06F8/30 | 分类号: | G06F8/30;G06F8/38;G06Q30/06 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 519031 广东省珠海*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 抓取 商城 网站 多级 菜单 保存 方法 | ||
本发明涉及SpringBoot平台技术领域,特别涉及一种抓取商城网站多级菜单并保存的方法。本发明方法如下:一、创建存储菜单的数据表;二、在项目中创建菜单对应的实体类;三、搭建Druid定时器环境及任务;四、引入爬虫jar包,创建菜单爬虫Job;五、分析要抓取的网站;六、扫描第一级目录,完毕后扫描二级、三级目录,并通过对应的标签抓取数据;七、解析添加到数据库中。本发明解决了抓取菜单数据无规律,得到的数据混乱的问题。
技术领域
本发明涉及SpringBoot技术领域,特别涉及一种抓取商城网站多级菜单并保存的方法。
背景技术
在开发类似购物商城网站的时候,经常会参考模仿甚至抄袭一些有价值网站内容或界面,从中获取一些有用的数据以及数据结构做为已用,像购物网站的菜单分类数据。这些数据在网站平时显示的时候都是折叠隐藏的,要想获得这些数据,如果使用手工记录,就必须逐层去点击,挨个查看记录,这种做法非常麻烦,费时费力,且不能拷贝其对应的层次关系。本发明在基于SpringBoot平台技术的基础上,使用爬虫技术实现逐层爬取,并按层次关系进行数据保存,解决了上述的问题。
发明内容
本发明解决的技术问题在于提供一种抓取商城网站多级菜单并保存的方法;本发明解决了抓取菜单数据无规律,得到的数据混乱的问题。
本发明解决上述技术问题的技术方案是:
一、创建存储菜单的数据表;二、在项目中创建菜单对应的实体类;三、搭建Druid定时器环境及任务;四、引入爬虫jar包,创建菜单爬虫Job;五、分析要抓取的网站;六、扫描第一级目录,完毕后扫描二级、三级目录,并通过对应的标签抓取数据;七、解析添加到数据库。
所述的方法具体包括如下步骤:
步骤一、创建存储菜单的数据表,主要有菜单的名称、链接地址、Id以及父parentId等内容;
步骤二、在项目中创建菜单对应的实体类,用来对数据的解析与交互;
步骤三、搭建Druid定时器环境;
步骤四、引入爬虫jar包,创建菜单爬虫Job;
步骤五、分析要抓取的网站,获取抓取时入口URL、请求头部信息等;
步骤六、创建抓取方法,在方法中,首选扫描第一级目录,然后扫描二级,接着第三级目录,依次深入遍历,直到循环结束。在每一级都使用数据所在的标签属性、id或者class等元素对其进行抓取;
步骤七、对抓取后的数据进行过滤,把所需的信息添加到数据库中。
本发明的有益效果:通过使用爬虫技术,逐层抓取,按层次关系保存,达到了获取与原网站数据及数据结构完全相同的目的。有效本发明解决了抓取菜单数据无规律,得到的数据混乱的问题。
附图说明
下面结合附图对本发明进一步说明:
图1为本发明的流程图。
具体实施方式
如图1所示,本发明采用如下步骤:
步骤一、创建存储菜单的数据表,主要有菜单的名称、链接地址、Id以及父parentId等内容;如:
CREATE TABLE `site_menu` (
`Id` varchar(50) NOT NULL,
`title` varchar(255) DEFAULT NULL COMMENT '分类标题',
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于珠海横琴盛达兆业科技投资有限公司,未经珠海横琴盛达兆业科技投资有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811046461.7/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种化工实验用萃取分离装置
- 下一篇:一种蒸汽回收再利用的蒸汽烹饪设备