[发明专利]一种抓取商城网站多级菜单并保存的方法在审

申请号：	201811046461.7	申请日：	2018-09-08
公开（公告）号：	CN110888632A	公开（公告）日：	2020-03-17
发明（设计）人：	陈林;张来卿;庞严冬	申请（专利权）人：	珠海横琴盛达兆业科技投资有限公司
主分类号：	G06F8/30	分类号：	G06F8/30;G06F8/38;G06Q30/06
代理公司：	暂无信息	代理人：	暂无信息
地址：	519031 广东省珠海***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种抓取商城网站多级菜单保存方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种抓取商城网站多级菜单并保存的方法，其特征在于：一、创建存储菜单的数据表；二、在项目中创建菜单对应的实体类；三、搭建Druid定时器环境及任务；四、引入爬虫jar包，创建菜单爬虫Job；五、分析要抓取的网站；六、扫描第一级目录，完毕后扫描二级、三级目录，并通过对应的标签抓取数据；七、解析添加到数据库中；从而本发明解决了抓取菜单数据无规律，得到的数据混乱的问题。

2.根据权利要求1所述的基于SpringBoot平台的一种抓取商城网站多级菜单并保存的方法，其特征在于：抓取时按层级的关系对菜单内容进行抓取，存储时按原样的层级关系进行保存；所述的方法具体包括如下步骤：

步骤一、创建存储菜单的数据表，主要有菜单的名称、链接地址、Id以及父parentId等内容；

步骤二、在项目中创建菜单对应的实体类，用来对数据的解析与交互；

步骤三、搭建Druid定时器环境；

步骤四、引入爬虫jar包，创建菜单爬虫Job；

步骤五、分析要抓取的网站，获取抓取时入口URL、请求头部信息等；

步骤六、创建抓取方法，在方法中，首选扫描第一级目录，然后扫描二级，接着第三级目录，依次深入遍历，直到循环结束；

在每一级都使用数据所在的标签属性、id或者class等元素对其进行抓取；

步骤七、对抓取后的数据进行过滤，把所需的信息添加到数据库中。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于珠海横琴盛达兆业科技投资有限公司，未经珠海横琴盛达兆业科技投资有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】