[发明专利]一种基于多文件格式自动识别的跨地域关联统计方法在审

申请号：	201710165255.7	申请日：	2017-03-20
公开（公告）号：	CN107168984A	公开（公告）日：	2017-09-15
发明（设计）人：	毕慧;付戈;李超;王振宇;李斌斌;王树鹏	申请（专利权）人：	国家计算机网络与信息安全管理中心
主分类号：	G06F17/30	分类号：	G06F17/30
代理公司：	北京君尚知识产权代理事务所(普通合伙)11200	代理人：	邱晓锋
地址：	100029***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于文件格式自动识别地域关联统计方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

技术领域

本发明涉及一种在多文件格式存储系统中自动识别文件格式关联统计的技术，特别是涉及一种利用统一SQL(Structured Query Language，结构化查询语言)入口实现多文件格式自动识别并支持跨地域关联统计的方法，属于大数据检索领域。

背景技术

近几年来，随着计算机和信息技术的迅猛发展和普及应用，行业应用系统的规模迅速扩大，行业应用所产生的数据呈爆炸性增长。动辄达到数百TB甚至数十至数百PB规模的行业/企业大数据已远远超出了现有传统的计算技术和信息系统的处理能力，因此，寻求有效的大数据处理技术、方法和手段已经成为现实世界的迫切需求。

随着需要处理数据量越来越多，在单一服务器系统管辖下根本无法满足目前的数据存储和数据计算分析的需求，因此产生了分布式文件管理系统和基于分布式文件管理系统的检索引擎。

分布式文件系统英文名成为DFS(Distributed File System)，即一种允许文件通过网络在多台主机上分享的文件系统，可以让多个机器上的多个用户分享文件和存储空间。它最大的特点是“通透性”，DFS实际上是通过网络来访问文件，在用户和程序看来，就像是访问本地的磁盘一般。目前应用最广泛的分布式文件系统是Hadoop分布式文件系统(HDFS)，HDFS是运行在通用硬件上的分布式文件系统。HDFS提供了一个高容错性和高吞吐量的海量数据存储解决方案，已经成为在线/离线的海量存储事实标准，多年来在各种应用场景提供了可靠高效的服务。HDFS中的文件格式大致上分为面向行和面向列两类。面向行存储：同一行的数据存储在一起，即连续存储，包括SequenceFile，MapFile，Avro，Datafile等。采用这种方式，如果只需要访问每行的一小部分数据，亦需要将整行读入内存，推迟序列化一定程度上可以缓解这个问题，但是从磁盘读取整行数据的开销却无法避免。面向行的存储适合于整行数据需要同时处理的情况。面向列存储：整个文件被切割为若干列数据，每一列数据一起存储，包括Parquet，RCFile，ORCFile等。面向列的格式使得读取数据时，可以跳过不需要的列，适合于只处理每行的一小部分字段的情况。在处理大数据检索时为了有效地节省时间和空间，更适合选用Parquet文件格式。在数据压缩方面，Parquet文件中数据以列的形式存储，所以能将完全不同的值一起存储在内存中，为存储的数据提供了更高的压缩率；在I/O操作方面，Parquet文件只需扫描部分列，大大减少了I/O操作；在编码模式方面，列式存储在压缩选项外提供了一种高效方式来存储数据。

HBase是一个构建在HDFS上的分布式列存储系统，是典型的key/value系统。主要用于海量非结构化数据存储，HBase将数据按照表、行和列进行存储。在存储结构方面，HBase支持无模式存储，每行都有一个可排序的主键和任意多的列，列可以根据需要动态的增加，同一张表中不同的行可以有截然不同的列；在数据类型方面，HBase中的数据都是字符串，没有类型区别；在数据一致性方面，每个单元中的数据可以有多个版本，默认情况下版本号自动分配，是单元格插入时的时间戳；在存储空间方面，表中的空列并不占用存储空间，表可以设计的非常稀疏；在系统扩展方面，Hbase依靠横向扩展，通过不断增加廉价的商用服务器，来增加计算和存储能力。

Lucene是一个高效的，基于Java的全文检索引擎工具包，它的全文检索技术是信息检索领域广泛使用的基本技术，具有访问索引时间快，多用户访问，跨平台使用的特点。Lucene的检索算法属于索引检索，即用空间来换取时间，主要适用于文档集的全文检索，以及海量数据库的模糊检索，同时支持单个和多个词汇的查询，短语查询，通配符，结果分级以及排序功能。在建立索引方面，Lucene支持多种分词器对不同的文本进行分词及建立索引；在存储方面，支持多种压缩格式，降低数据的存储成本；在存储方面，Lucene具有多种合并索引策略，通过将多个小文件合并成一个大文件，提高检索效率。

综上所述，在大数据存储系统中，针对不同的应用场景通常采用多种存储模式，在不同存储模式中进行统一关联统计的需求也越来越大。在关联统计中统一检索入口和标准，自动识别检索场景以及解决跨地域的技术逐渐成为大数据分析领域的关键问题。

发明内容

本发明的主要目的是提供在多地域多文件格式存储系统下进行跨地域关联统计的技术，统一检索入口，兼容多种数据存储格式，支持多种文件系统，优化检索，提升关联统计效率，有效解决多地域多文件格式下大数据关联统计问题。

本发明采用的技术方案如下：

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于国家计算机网络与信息安全管理中心，未经国家计算机网络与信息安全管理中心许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201710165255.7/2.html，转载请声明来源钻瓜专利网。

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理
G06F17-00 特别适用于特定功能的数字计算设备或数据处理设备或数据处理方法
G06F17-10 .复杂数学运算的
G06F17-20 .处理自然语言数据的
G06F17-30 .信息检索；及其数据库结构
G06F17-40 .数据的获取和记录
G06F17-50 .计算机辅助设计

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于多文件格式自动识别的跨地域关联统计方法在审

专利文献下载