[发明专利]一种基于分布式数据收集的方法在审
申请号: | 201811354401.1 | 申请日: | 2018-11-14 |
公开(公告)号: | CN109543103A | 公开(公告)日: | 2019-03-29 |
发明(设计)人: | 邓杰;陈建江 | 申请(专利权)人: | 深圳市中易科技有限责任公司 |
主分类号: | G06F16/9535 | 分类号: | G06F16/9535 |
代理公司: | 北京慕达星云知识产权代理事务所(特殊普通合伙) 11465 | 代理人: | 李冉 |
地址: | 518000 广东省深圳市*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 互联网网站 分布式数据 互联网数据 配置界面 数据抓取 抓取 标准互联网 分布式消息 收集数据 数据依据 统一格式 大数据 网站 渠道 存储 互联网 分类 分析 | ||
1.一种基于分布式数据收集的方法,其特征在于,包括以下步骤:
S1:收集数据来源的互联网网站信息,并对所述互联网网站信息进行整理,得到各个互联网网站的特性;
S2:调研各个所述互联网网站的特性并对所述互联网网站进行分类,获得不同类互联网网站的配置界面以及数据抓取渠道;
S3:根据所述配置界面以及所述数据抓取渠道对互联网数据进行处理,将处理后的互联网数据推送给分布式消息存储,最终形成统一格式的标准互联网数据。
2.根据权利要求1所述的一种基于分布式数据收集的方法,其特征在于,步骤S1具体包括以下步骤:
S11:根据业务需求,获得所述互联网网站信息;
S12:整理所述互联网网站信息,包括网站格式、数据展示形式和搜索方式;
S13:根据整理后的互联网网站信息,配置网站基础信息配置,得到各个所述互联网网站的特性。
3.根据权利要求2所述的一种基于分布式数据收集的方法,其特征在于,步骤S2具体包括以下步骤:
S21:调研所述互联网网站的特性,包括各个互联网网站信息的特性、对业务数据的重要性以及业务对互联网网站中被抓取数据所需要的及时性;
S22:根据不同的所述互联网网站的特性对所述互联网网站进行分类,得到不同类型的互联网网站;
S23:对所述不同类型的互联网网站,设定不同的配置界面以及抓取渠道,其中,所述配置界面的服务信息为种子URL、抓取频率、抓取关键字、网站用户名、网站密码、网站类型、网站的解析格式、网站的抓取层级数和网站抓取的页面数。
4.根据权利要求3所述的一种基于分布式数据收集的方法,其特征在于,在步骤S23之后还包括S24:对所述配置界面的配置权限进行管理。
5.根据权利要求4所述的一种基于分布式数据收集的方法,其特征在于,步骤S3具体包括以下步骤:
对所述互联网数据进行数据抓取、数据分析和数据治理;
其中,通过分布式架构、多进程、多线程调用和服务器集群的方式进行所述数据抓取;
所述数据分析采用分布式数据计算、分布式实时流式处理框架;
所述数据治理包括数据解析、数据过滤以及数据去重。
6.根据权利要求5所述的一种基于分布式数据收集的方法,其特征在于,在所述数据抓取过程中,将所述服务信息设置为通过网页配置的动态调整。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳市中易科技有限责任公司,未经深圳市中易科技有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811354401.1/1.html,转载请声明来源钻瓜专利网。
- 上一篇:电子手册的推送方法和装置
- 下一篇:确定服务提供方的方法、系统以及存储介质