[发明专利]一种基于多文件格式自动识别的跨地域关联统计方法在审

专利信息
申请号: 201710165255.7 申请日: 2017-03-20
公开(公告)号: CN107168984A 公开(公告)日: 2017-09-15
发明(设计)人: 毕慧;付戈;李超;王振宇;李斌斌;王树鹏 申请(专利权)人: 国家计算机网络与信息安全管理中心
主分类号: G06F17/30 分类号: G06F17/30
代理公司: 北京君尚知识产权代理事务所(普通合伙)11200 代理人: 邱晓锋
地址: 100029*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 文件格式 自动识别 地域 关联 统计 方法
【权利要求书】:

1.一种基于多文件格式自动识别的跨地域关联统计方法,其步骤包括:

1)通过统一SQL查询入口接收SQL查询请求;

2)对SQL查询请求进行解析,以识别查询的不同文件格式;

3)全局节点将解析成功后的查询请求发送到对应的分节点;

4)各分节点进行相应的查询操作,并将查询结果回传给全局节点;

5)全局节点对各分节点回传的数据进行关联统计,并输出统计结果。

2.如权利要求1所述的方法,其特征在于:步骤1)所述统一SQL查询入口支持多种过滤条件,包括数值类型的判定、逻辑表达式、模糊匹配、正则匹配,并且这些过滤条件能够任意组合。

3.如权利要求1所述的方法,其特征在于:步骤2)通过库表信息获取系统内库表唯一标识,通过标识符获取文件存储属性,从而识别不同的文件格式。

4.如权利要求1所述的方法,其特征在于:步骤2)所述不同文件格式包括HDFS中的Parquet文件;本地磁盘中Lucene索引文件;HBase中Hfile文件;其中,Parquet文件提供离线统计分析功能,Parquet格式支持多层嵌套和多种格式压缩;Lucene文件提供在线系统的实时统计功能和海量数据的索引查找,Lucene文件本身包含内部索引文件并记录数据在文件中的位置信息,加快检索速度,Lucene文件默认采用压缩存储以有效降低存储空间;Hfile文件提供精确查询功能,通过key/value存储模式实现实时查询,通过MapReduce进行离线处理或者批处理。

5.如权利要求1所述的方法,其特征在于:步骤2)中若解析失败,则返回语法错误。

6.如权利要求1所述的方法,其特征在于:步骤4)中若各分节点查询成功则将数据返回给全局节点,若查询失败且没有超过重查次数,则进行重查,若超过重查次数,则返回查询失败。

7.如权利要求6所述的方法,其特征在于:步骤4)中若数据传输成功,则结束本次查询,若传输失败且没有超过重传次数,则进行重传,否则返回传输失败。

8.如权利要求1所述的方法,其特征在于:步骤5)中若全局节点在规定时间内接收到所有分节点回传的数据,则进行下一步关联统计,否则返回查询错误。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国家计算机网络与信息安全管理中心,未经国家计算机网络与信息安全管理中心许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201710165255.7/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top