[发明专利]一种基于多文件格式自动识别的跨地域关联统计方法在审
申请号: | 201710165255.7 | 申请日: | 2017-03-20 |
公开(公告)号: | CN107168984A | 公开(公告)日: | 2017-09-15 |
发明(设计)人: | 毕慧;付戈;李超;王振宇;李斌斌;王树鹏 | 申请(专利权)人: | 国家计算机网络与信息安全管理中心 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京君尚知识产权代理事务所(普通合伙)11200 | 代理人: | 邱晓锋 |
地址: | 100029*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 文件格式 自动识别 地域 关联 统计 方法 | ||
1.一种基于多文件格式自动识别的跨地域关联统计方法,其步骤包括:
1)通过统一SQL查询入口接收SQL查询请求;
2)对SQL查询请求进行解析,以识别查询的不同文件格式;
3)全局节点将解析成功后的查询请求发送到对应的分节点;
4)各分节点进行相应的查询操作,并将查询结果回传给全局节点;
5)全局节点对各分节点回传的数据进行关联统计,并输出统计结果。
2.如权利要求1所述的方法,其特征在于:步骤1)所述统一SQL查询入口支持多种过滤条件,包括数值类型的判定、逻辑表达式、模糊匹配、正则匹配,并且这些过滤条件能够任意组合。
3.如权利要求1所述的方法,其特征在于:步骤2)通过库表信息获取系统内库表唯一标识,通过标识符获取文件存储属性,从而识别不同的文件格式。
4.如权利要求1所述的方法,其特征在于:步骤2)所述不同文件格式包括HDFS中的Parquet文件;本地磁盘中Lucene索引文件;HBase中Hfile文件;其中,Parquet文件提供离线统计分析功能,Parquet格式支持多层嵌套和多种格式压缩;Lucene文件提供在线系统的实时统计功能和海量数据的索引查找,Lucene文件本身包含内部索引文件并记录数据在文件中的位置信息,加快检索速度,Lucene文件默认采用压缩存储以有效降低存储空间;Hfile文件提供精确查询功能,通过key/value存储模式实现实时查询,通过MapReduce进行离线处理或者批处理。
5.如权利要求1所述的方法,其特征在于:步骤2)中若解析失败,则返回语法错误。
6.如权利要求1所述的方法,其特征在于:步骤4)中若各分节点查询成功则将数据返回给全局节点,若查询失败且没有超过重查次数,则进行重查,若超过重查次数,则返回查询失败。
7.如权利要求6所述的方法,其特征在于:步骤4)中若数据传输成功,则结束本次查询,若传输失败且没有超过重传次数,则进行重传,否则返回传输失败。
8.如权利要求1所述的方法,其特征在于:步骤5)中若全局节点在规定时间内接收到所有分节点回传的数据,则进行下一步关联统计,否则返回查询错误。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国家计算机网络与信息安全管理中心,未经国家计算机网络与信息安全管理中心许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710165255.7/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种基于大数据的位置发现方法
- 下一篇:一种模糊文件属性信息的方法及装置