[发明专利]基于信息流的大数据存储系统在审
申请号: | 202210336076.6 | 申请日: | 2022-04-01 |
公开(公告)号: | CN114490623A | 公开(公告)日: | 2022-05-13 |
发明(设计)人: | 魏俊杰;蓝岸;何翼;熊黄;庄辉;黄松杰;郑裕豪;黄金田;梁焯源;黄莹涛;覃俊华;叶国龙 | 申请(专利权)人: | 深圳新闻网传媒股份有限公司 |
主分类号: | G06F16/215 | 分类号: | G06F16/215;G06F16/22;G06F16/23;G06F16/951;G06F16/955;G06F9/50 |
代理公司: | 北京中索知识产权代理有限公司 11640 | 代理人: | 邹长斌 |
地址: | 518034 广东省深圳市福田区莲*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 信息 数据 存储系统 | ||
本发明公开了基于信息流的大数据存储系统,该存储系统旨在解决现有技术下任务不能并行处理,因此数据存储的耗时较长,且不能对数据进行预处理,源数据中含有较多的有问题数据,后续的处理难度大,并且没有创建索引,不利于数据的查找的技术问题。该存储系统包括数据抓取单元、数据预处理单元和数据存储单元。该存储系统利用map任务有5个复制线程,因此可以并行地复制map的输出任务,因此提高数据存储的速度,且通过数据预处理单元针对数据抓取单元抓取到的有问题数据进行清洗和转换,其目的为纠正错误、删除重复项、统一规格、修正逻辑、转换构造、数据压缩,从而保证数据的完整性,便于数据的后续处理,同时可以加快数据的检索速度。
技术领域
本发明属于大数据存储系统领域,具体涉及基于信息流的大数据存储系统。
背景技术
信息流的广义定义是指人们采用各种方式来实现信息交流,从面对面的交谈直到采用各种现代化的传递媒介,信息流的狭义定义是从现代信息技术研究、发展、应用的角度看,指的是信息处理过程中信息在计算机系统和通信网络中的流动。
目前,专利号为CN201811575618.5的发明专利公开了一种基于大数据的信息流存储系统,所述存储系统包括依次电连接的信息源、信息采集模块、数据处理模块和存储模块,所述信息源包括本地信息存储模块、异地信息存储模块和互联网信息存储模块;所述信息采集模块包括第一信息采集模块、第二信息采集模块、第三信息采集模块、登录信息采集模块和第一输出模块,所述本地信息存储模块与第一信息采集模块电连接,所述异地信息存储模块与第二信息采集模块电连接,所述互联网信息存储模块与第三信息采集模块电连接,所述本地信息存储模块、异地信息存储模块和互联网信息存储模块分别与登录信息采集模块电连接,所述第一信息采集模块、第二信息采集模块、第三信息采集模块和登录信息采集模块分别与第一输出模块电连接;所述数据处理模块包括第一数据接收模块、第一访问接收模块、数据分析模块、数据优化模块和第二输出模块,所述第一输出模块分别与第一数据接收模块、第一访问接收模块电连接,所述第一数据接收模块、第一访问接收模块分别与数据分析模块电连接,所述数据分析模块、数据优化模块和第二输出模块依次电连接;所述存储模块包括第一存储模块和第二存储模块,所述第二输出模块、第一存储模块、第二存储模块依次电连接,其通过数据处理模块进行数据的处理分析操作,最后通过存储模块进行存储或查询,增加了系统的存储能力,但是该系统存在任务不能并行处理,因此数据存储的耗时较长,且不能对数据进行预处理,源数据中含有较多的有问题数据,后续的处理难度大,并且没有创建索引,不利于数据的查找。
因此,针对上述不能对数据进行预处理和没有索引的问题,亟需得到解决,以改善存储系统的使用场景。
发明内容
(1)要解决的技术问题
针对现有技术的不足,本发明的目的在于提供基于信息流的大数据存储系统,该存储系统旨在解决现有技术下任务不能并行处理,因此数据存储的耗时较长,且不能对数据进行预处理,源数据中含有较多的有问题数据,后续的处理难度大,并且没有创建索引,不利于数据的查找的技术问题。
(2)技术方案
为了解决上述技术问题,本发明提供了这样基于信息流的大数据存储系统,该存储系统包括数据抓取单元、数据预处理单元和数据存储单元;其中,
所述数据抓取单元根据抓取策略,将互联网上的网页下载到本地,其流程为:首先选取种子URL;将种子URL放入待抓取URL队列;从待抓取URL队列中取出待抓取URL,解析DNS,并且得到主机的ip,并将URL对应的网页下载下来,存储进已下载网页库中,然后将这些已抓取的URL放进已抓取URL队列;分析已抓取URL队列中的URL,分析其中的其他URL,并且将URL放入待抓取URL队列,从而进入下一个循环;
所述数据预处理单元针对数据抓取单元抓取到的有问题数据进行清洗和转换,数据清洗和转换的处理方式包括:纠正错误、删除重复项、统一规格、修正逻辑、转换构造、数据压缩;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳新闻网传媒股份有限公司,未经深圳新闻网传媒股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210336076.6/2.html,转载请声明来源钻瓜专利网。
- 信息记录介质、信息记录方法、信息记录设备、信息再现方法和信息再现设备
- 信息记录装置、信息记录方法、信息记录介质、信息复制装置和信息复制方法
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录设备、信息重放设备、信息记录方法、信息重放方法、以及信息记录介质
- 信息存储介质、信息记录方法、信息重放方法、信息记录设备、以及信息重放设备
- 信息存储介质、信息记录方法、信息回放方法、信息记录设备和信息回放设备
- 信息记录介质、信息记录方法、信息记录装置、信息再现方法和信息再现装置
- 信息终端,信息终端的信息呈现方法和信息呈现程序
- 信息创建、信息发送方法及信息创建、信息发送装置
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置