[发明专利]一种抓取商城网站多级菜单并保存的方法在审

申请号：	201811046461.7	申请日：	2018-09-08
公开（公告）号：	CN110888632A	公开（公告）日：	2020-03-17
发明（设计）人：	陈林;张来卿;庞严冬	申请（专利权）人：	珠海横琴盛达兆业科技投资有限公司
主分类号：	G06F8/30	分类号：	G06F8/30;G06F8/38;G06Q30/06
代理公司：	暂无信息	代理人：	暂无信息
地址：	519031 广东省珠海***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种抓取商城网站多级菜单保存方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明涉及SpringBoot平台技术领域，特别涉及一种抓取商城网站多级菜单并保存的方法。本发明方法如下：一、创建存储菜单的数据表；二、在项目中创建菜单对应的实体类；三、搭建Druid定时器环境及任务；四、引入爬虫jar包，创建菜单爬虫Job；五、分析要抓取的网站；六、扫描第一级目录，完毕后扫描二级、三级目录，并通过对应的标签抓取数据；七、解析添加到数据库中。本发明解决了抓取菜单数据无规律，得到的数据混乱的问题。

技术领域

本发明涉及SpringBoot技术领域，特别涉及一种抓取商城网站多级菜单并保存的方法。

背景技术

在开发类似购物商城网站的时候，经常会参考模仿甚至抄袭一些有价值网站内容或界面，从中获取一些有用的数据以及数据结构做为已用，像购物网站的菜单分类数据。这些数据在网站平时显示的时候都是折叠隐藏的，要想获得这些数据，如果使用手工记录，就必须逐层去点击，挨个查看记录，这种做法非常麻烦，费时费力，且不能拷贝其对应的层次关系。本发明在基于SpringBoot平台技术的基础上，使用爬虫技术实现逐层爬取，并按层次关系进行数据保存，解决了上述的问题。

发明内容

本发明解决的技术问题在于提供一种抓取商城网站多级菜单并保存的方法；本发明解决了抓取菜单数据无规律，得到的数据混乱的问题。

本发明解决上述技术问题的技术方案是：

一、创建存储菜单的数据表；二、在项目中创建菜单对应的实体类；三、搭建Druid定时器环境及任务；四、引入爬虫jar包，创建菜单爬虫Job；五、分析要抓取的网站；六、扫描第一级目录，完毕后扫描二级、三级目录，并通过对应的标签抓取数据；七、解析添加到数据库。

所述的方法具体包括如下步骤：

步骤一、创建存储菜单的数据表，主要有菜单的名称、链接地址、Id以及父parentId等内容；

步骤二、在项目中创建菜单对应的实体类，用来对数据的解析与交互；

步骤三、搭建Druid定时器环境；

步骤四、引入爬虫jar包，创建菜单爬虫Job；

步骤五、分析要抓取的网站，获取抓取时入口URL、请求头部信息等；

步骤六、创建抓取方法，在方法中，首选扫描第一级目录，然后扫描二级，接着第三级目录，依次深入遍历，直到循环结束。在每一级都使用数据所在的标签属性、id或者class等元素对其进行抓取；

步骤七、对抓取后的数据进行过滤，把所需的信息添加到数据库中。