[发明专利]一种海量非结构化数据处理方法和装置在审

申请号：	201811049607.3	申请日：	2018-09-10
公开（公告）号：	CN109446296A	公开（公告）日：	2019-03-08
发明（设计）人：	程俊;杭维杰	申请（专利权）人：	上海勋立信息科技有限公司
主分类号：	G06F16/31	分类号：	G06F16/31;G06F16/33;G06F16/13;G06F16/182
代理公司：	上海骁象知识产权代理有限公司 31315	代理人：	赵俊寅
地址：	202150 上海市崇明区城桥镇秀***	国省代码：	上海;31
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	非结构化数据处理标准格式数据文件非结构化数据方法和装置分布式存储数据处理技术分布式数据快速查询索引存储上传索引查询创建
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明提供一种海量非结构化数据处理方法及装置，属于数据处理技术领域。本发明的海量非结构化数据处理方法包括对海量非结构化数据进行清理得到标准格式的数据文件；批量上传所述标准格式的数据文件到分布式存储平台；创建一个或多个索引存储所述标准格式的数据文件；根据所述索引在分布式存储平台上进行分布式数据查询。本发明的一种海量非结构化数据处理方法和装置可实现海量非结构化数据的快速查询。

技术领域

本发明属于数据处理技术领域，尤其涉及一种海量非结构化数据处理方法和装置。

背景技术

随着互联网技术的高速发展及云时代的来临，大数据（Big data）处理技术受到越来越多的关注。大数据（Big data）通常用来形容一个公司创造的大量非结构化和半结构化数据，这些数据在下载到关系型数据库用于分析时会花费过多时间和金钱，并且在数据大量的增长的情况下，基于这些传统的关系型数据库的数据处理和查询速度越来越慢，已经不能适应当前大数据处理的需求。

发明内容

本发明提供一种海量非结构化数据处理方法和装置，可实现海量非结构化数据的快速查询。

为解决上述技术问题，本发明提供了一种海量非结构化数据处理方法，包括：

对海量非结构化数据进行清理得到标准格式的数据文件；

批量上传所述标准格式的数据文件到分布式存储平台；

创建一个或多个索引存储所述标准格式的数据文件；

根据所述索引在分布式存储平台上进行分布式数据查询。

根据本发明的一实施方式，所述对海量非结构化数据进行清理得到标准格式的数据文件的步骤包括：

将海量非结构化数据中所有的非数值数据转换为数值数据；

处理转换后的数值数据中不完整的数据、错误的数据、重复的数据；

转换所述数值数据得到标准格式的数据文件。

根据本发明的另一实施方式，所述处理转换后的数值数据中不完整的数据、错误的数据、重复的数据的步骤包括：