[发明专利]一种基于分布式数据收集的方法在审
申请号: | 201811354401.1 | 申请日: | 2018-11-14 |
公开(公告)号: | CN109543103A | 公开(公告)日: | 2019-03-29 |
发明(设计)人: | 邓杰;陈建江 | 申请(专利权)人: | 深圳市中易科技有限责任公司 |
主分类号: | G06F16/9535 | 分类号: | G06F16/9535 |
代理公司: | 北京慕达星云知识产权代理事务所(特殊普通合伙) 11465 | 代理人: | 李冉 |
地址: | 518000 广东省深圳市*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种基于分布式数据收集的方法,包括:收集数据来源的互联网网站信息,并对互联网网站信息进行整理,得到各个互联网网站的特性;调研各个互联网网站的特性并对互联网网站进行分类,获得不同类互联网网站的配置界面以及数据抓取渠道;根据配置界面以及数据抓取渠道对互联网数据进行处理,将处理后的互联网数据推送给分布式消息存储,最终形成统一格式的标准互联网数据。本发明分别对不同类型的互联网网站进行处理,便于后期的同类型网站进行扩展,能够对互联网上的用户舆论数据做到全面、高效、多样化的抓取,为之后的舆论大数据分析提供最基础的数据依据。 | ||
搜索关键词: | 互联网网站 分布式数据 互联网数据 配置界面 数据抓取 抓取 标准互联网 分布式消息 收集数据 数据依据 统一格式 大数据 网站 渠道 存储 互联网 分类 分析 | ||
【主权项】:
1.一种基于分布式数据收集的方法,其特征在于,包括以下步骤:S1:收集数据来源的互联网网站信息,并对所述互联网网站信息进行整理,得到各个互联网网站的特性;S2:调研各个所述互联网网站的特性并对所述互联网网站进行分类,获得不同类互联网网站的配置界面以及数据抓取渠道;S3:根据所述配置界面以及所述数据抓取渠道对互联网数据进行处理,将处理后的互联网数据推送给分布式消息存储,最终形成统一格式的标准互联网数据。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳市中易科技有限责任公司,未经深圳市中易科技有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201811354401.1/,转载请声明来源钻瓜专利网。
- 上一篇:电子手册的推送方法和装置
- 下一篇:确定服务提供方的方法、系统以及存储介质