[发明专利]一种访问记录提取方法及装置在审
申请号: | 202010955898.3 | 申请日: | 2020-09-11 |
公开(公告)号: | CN112084249A | 公开(公告)日: | 2020-12-15 |
发明(设计)人: | 王泉军;蓝明洪;黄锋 | 申请(专利权)人: | 浙江立元科技有限公司 |
主分类号: | G06F16/25 | 分类号: | G06F16/25;G06F16/28 |
代理公司: | 北京超凡宏宇专利代理事务所(特殊普通合伙) 11463 | 代理人: | 荣颖佳 |
地址: | 310000 浙江省杭州市西湖区文*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 访问 记录 提取 方法 装置 | ||
本申请提供了一种访问记录提取方法及装置,该方法包括:从日志中心获取访问日志;所述访问日志是数据仓库工具HIVE生成的用户访问日志;针对每个访问日志,根据目标关键字,查询所述目标关键字对应的目标日志字段;根据目标日志信息标识,从所述目标日志字段中提取目标日志信息;根据提取到的所有目标日志信息,生成所述访问日志对应的访问记录,并存入访问记录数据库。本申请实施例所提出的一种访问记录提取方法实现了HIVE的访问记录的提取,为HIVE访问的统计分析提供了数据基础,从而可以实现对于用户的错误操作或非法操作的监控分析。
技术领域
本申请涉及数据分析领域,具体而言,涉及一种访问记录提取方法及装置。
背景技术
目前,越来越多的平台使用HIVE来做大数量的数据离线分析,HIVE是基于分布式系统基础架构Hadoop的一个数据仓库工具,可以用来进行数据的提取、转化和加载,这是一种可以存储、查询和分析存储在Hadoop中的大规模数据的机制。HIVE数据仓库工具能将结构化的数据文件映射为一张数据库表,并提供SQL查询功能,能将SQL(Structured QueryLanguage,结构化查询语言)语句转变成MapReduce任务来执行。HIVE的优点是学习成本低,可以通过类似SQL语句实现快速MapReduce统计,使MapReduce变得更加简单,而不必开发专门的MapReduce应用程序。
现有技术中,使用计算机网络授权协议Kerberos可以解决HIVE访问权限控制问题,但是目前缺乏HIVE访问的统计分析手段,主要原因是无法获取HIVE的访问记录。
发明内容
有鉴于此,本申请的目的在于提供一种访问记录提取方法及装置,用于解决现有技术中如何实现HIVE的访问记录的提取的问题。
第一方面,本申请实施例提供了一种访问记录提取方法,该方法包括:
从日志中心获取访问日志;所述访问日志是数据仓库工具HIVE生成的用户访问日志;
针对每个访问日志,根据目标关键字,查询所述目标关键字对应的目标日志字段;
根据目标日志信息标识,从所述目标日志字段中提取目标日志信息;
根据提取到的所有目标日志信息,生成所述访问日志对应的访问记录,并存入访问记录数据库。
在一些实施例中,所述目标关键字包括登录关键字、连接日志关键字、SQL解析日志关键字、SQL执行开始关键字、SQL执行结束关键字。
在一些实施例中,在从日志中心获取访问日志之前,还包括:
从目标日志目录下采集访问日志,逐条发送至日志中心。
在一些实施例中,在根据提取到的所有目标信息,生成所述访问日志对应的访问记录,并存入访问记录数据库之后,还包括:
根据目标查询信息,对访问记录数据库中的访问记录进行目标操作;所述目标查询信息包括用户、IP地址、时间和结果标记,所述目标操作包括查询操作和统计操作。
第二方面,本申请提供了一种访问记录提取装置,该装置包括:
获取模块,用于从日志中心获取访问日志;所述访问日志是数据仓库工具HIVE生成的用户访问日志;
查询模块,用于针对每个访问日志,根据目标关键字,查询所述目标关键字对应的目标日志字段;
提取模块,用于根据目标日志信息标识,从所述目标日志字段中提取目标日志信息;
生成模块,用于根据提取到的所有目标日志信息,生成所述访问日志对应的访问记录,并存入访问记录数据库。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江立元科技有限公司,未经浙江立元科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010955898.3/2.html,转载请声明来源钻瓜专利网。