[发明专利]一种基于Scalable Web Crawler的数据分析方法在审
申请号: | 202111468364.9 | 申请日: | 2021-12-03 |
公开(公告)号: | CN114329134A | 公开(公告)日: | 2022-04-12 |
发明(设计)人: | 张波;范渊;吴永越;郑学新;刘韬 | 申请(专利权)人: | 成都安恒信息技术有限公司 |
主分类号: | G06F16/951 | 分类号: | G06F16/951;G06F16/31;G06F16/215;G06F16/22 |
代理公司: | 成都君合集专利代理事务所(普通合伙) 51228 | 代理人: | 尹新路 |
地址: | 610000 四川省成都市自由贸易试验区成*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 scalable web crawler 数据 分析 方法 | ||
本发明提出了一种基于Scalable Web Crawler的数据分析方法,结合Scalable Web Crawler工具和分布式数据遍历手段,提取web上的有效数据,并通过数据分析模块进行整合分析,最终形成一份可读性的材料。
技术领域
本发明属于计算机数据处理技术领域,具体地说,涉及一种基于Scalable WebCrawler的数据分析方法。
背景技术
数据提取和分析是指通过人工或者自动化的手段收集数据,并通过统计学或者数据分析学中的方法对收集的数据进行整合分析。随着社会和科技的发展越来越快,海量的数据充斥着人们的日常生活,因此对这些数据进行脏数据过滤,有效信息的提取越来越被人们的日常生活所需要。
发明内容
本发明针对现有技术的上述需求,提出了一种基于Scalable Web Crawler的数据分析方法,结合Scalable Web Crawler工具和分布式数据遍历手段,提取web上的有效数据,并通过数据分析模块进行整合分析,最终形成一份可读性的材料。
本发明具体实现内容如下:
本发明提出了一种基于Scalable Web Crawler的数据分析方法,用于对输入的WEB页面数据进行分析处理,整理得到可读性更好的文本数据文件,具体包括以下步骤:
步骤1:输入统一资源定位符URL;
步骤2:通过Scalable Web Crawler爬虫技术对输入的WEB页面数据进行文本数据提取;
步骤3:将提取的文本数据以数据表的形式存入数据库中;
步骤4:将数据表形式的文本数据从数据库中拉取出,并送入到数据分析模块中,以分布式的方式对每张数据表进行遍历;所述数据分析模块采用基于Storm框架的数据分析工具;
步骤5:根据遍历结果生成可读性更好的文本数据文件。
为了更好地实现本发明,进一步地,所述步骤4中的具体遍历操作分为依次进行的三次遍历,其中:
在第一次遍历时:使用数据分析模块同时从数据库中拉取多张数据表,并对每一张数据表都进行分布式遍历解析;然后数据遍历后的一次遍历数据过滤表、数据节点和数据归类框架,所述数据归类框架的主体结构由数据节点构成。
为了更好地实现本发明,进一步地,在第二次遍历时,将第一次遍历后得到的一次遍历数据过滤表作为新的数据源开始第二次数据遍历,而且在第二次遍历的过程中,使用数据分析模块根据数据归类框架的构成,将数据输入到数据归类框架中,得到二次遍历数据过滤表并输出。
为了更好地实现本发明,进一步地,在第三次遍历时,将二次遍历数据过滤表作为新的数据源进行第三次数据遍历,采用数据分析模块将二次遍历数据过滤表中的数据和数据归类框架中的数据进行对比,对二次遍历数据过滤表中的数据进行校正,形成三次遍历数据过滤表,所述三次遍历数据过滤表为最终的可读性更好的文本数据文件。
为了更好地实现本发明,进一步地,所述步骤3中,将提取的文本数据以编号+内容的方式并以数据表的形式存入数据库中。
为了更好地实现本发明,进一步地,在对数据进行三次遍历的过程中,每一次遍历都采用先序遍历的方式,从第一个数据内容开始依次对数据进行遍历,直到数据表中的所有数据都被遍历一遍。
为了更好地实现本发明,进一步地,在进行遍历的同时,还要进行数据清洗,所述数据清洗包括以下步骤:
步骤一:无效数据清理:在数据分析模块中内置无效信息过滤表;在遍历过程中,使用数据分析模块将数据表中的内容和内置的无效信息过滤表中的数据进行对比;当数据进行比对的重合度达到90%以上时,将数据表中被比对的数据内容判定为无效数据,并将无效数据直接丢弃,不存储在遍历后的一次遍历数据过滤表/二次遍历数据过滤表/三次遍历数据过滤表中。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于成都安恒信息技术有限公司,未经成都安恒信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111468364.9/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种绝缘层覆盖集成电路板检测装置
- 下一篇:一种农林用天然生漆辅助收集装置