[发明专利]一种基于多文件格式自动识别的跨地域关联统计方法在审

申请号：	201710165255.7	申请日：	2017-03-20
公开（公告）号：	CN107168984A	公开（公告）日：	2017-09-15
发明（设计）人：	毕慧;付戈;李超;王振宇;李斌斌;王树鹏	申请（专利权）人：	国家计算机网络与信息安全管理中心
主分类号：	G06F17/30	分类号：	G06F17/30
代理公司：	北京君尚知识产权代理事务所(普通合伙)11200	代理人：	邱晓锋
地址：	100029***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于文件格式自动识别地域关联统计方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于多文件格式自动识别的跨地域关联统计方法，其步骤包括：

1)通过统一SQL查询入口接收SQL查询请求；

2)对SQL查询请求进行解析，以识别查询的不同文件格式；

3)全局节点将解析成功后的查询请求发送到对应的分节点；

4)各分节点进行相应的查询操作，并将查询结果回传给全局节点；

5)全局节点对各分节点回传的数据进行关联统计，并输出统计结果。

2.如权利要求1所述的方法，其特征在于：步骤1)所述统一SQL查询入口支持多种过滤条件，包括数值类型的判定、逻辑表达式、模糊匹配、正则匹配，并且这些过滤条件能够任意组合。

3.如权利要求1所述的方法，其特征在于：步骤2)通过库表信息获取系统内库表唯一标识，通过标识符获取文件存储属性，从而识别不同的文件格式。

4.如权利要求1所述的方法，其特征在于：步骤2)所述不同文件格式包括HDFS中的Parquet文件；本地磁盘中Lucene索引文件；HBase中Hfile文件；其中，Parquet文件提供离线统计分析功能，Parquet格式支持多层嵌套和多种格式压缩；Lucene文件提供在线系统的实时统计功能和海量数据的索引查找，Lucene文件本身包含内部索引文件并记录数据在文件中的位置信息，加快检索速度，Lucene文件默认采用压缩存储以有效降低存储空间；Hfile文件提供精确查询功能，通过key/value存储模式实现实时查询，通过MapReduce进行离线处理或者批处理。

5.如权利要求1所述的方法，其特征在于：步骤2)中若解析失败，则返回语法错误。

6.如权利要求1所述的方法，其特征在于：步骤4)中若各分节点查询成功则将数据返回给全局节点，若查询失败且没有超过重查次数，则进行重查，若超过重查次数，则返回查询失败。

7.如权利要求6所述的方法，其特征在于：步骤4)中若数据传输成功，则结束本次查询，若传输失败且没有超过重传次数，则进行重传，否则返回传输失败。

8.如权利要求1所述的方法，其特征在于：步骤5)中若全局节点在规定时间内接收到所有分节点回传的数据，则进行下一步关联统计，否则返回查询错误。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于国家计算机网络与信息安全管理中心，未经国家计算机网络与信息安全管理中心许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201710165255.7/1.html，转载请声明来源钻瓜专利网。

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理
G06F17-00 特别适用于特定功能的数字计算设备或数据处理设备或数据处理方法
G06F17-10 .复杂数学运算的
G06F17-20 .处理自然语言数据的
G06F17-30 .信息检索；及其数据库结构
G06F17-40 .数据的获取和记录
G06F17-50 .计算机辅助设计

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于多文件格式自动识别的跨地域关联统计方法在审

专利文献下载