[发明专利]一种日志检索方法、装置、设备及介质在审

专利信息
申请号: 202210318431.7 申请日: 2022-03-29
公开(公告)号: CN114661867A 公开(公告)日: 2022-06-24
发明(设计)人: 郭晓;徐静 申请(专利权)人: 杭州安恒信息技术股份有限公司
主分类号: G06F16/33 分类号: G06F16/33;G06F16/31;G06F16/35
代理公司: 北京集佳知识产权代理有限公司 11227 代理人: 吕鑫
地址: 310000 浙江省*** 国省代码: 浙江;33
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 日志 检索 方法 装置 设备 介质
【说明书】:

本申请公开了一种日志检索方法、装置、设备及介质,包括:获取原始日志,并利用预设划分方法将原始日志的统一资源定位符划分为各token,并基于统一资源定位符和各token创建数据库;利用预设分类方法对数据库中各token进行分类,以得到不同种类的token,并基于不同种类的token和数据库中的所有token确定出每种token的逆向词频;基于每种token的逆向词频确定出符合业务需求的各目标token,并将各目标token和各目标token对应的原始日志保存至数据库;利用数据库对预设模型进行训练,以得到训练后模型,然后获取目标统一资源定位符,并基于训练后模型确定出与目标统一资源定位符对应的原始日志。通过本申请的上述技术方案,能够进一步提高日志检索的准确性,并有效增加日志检索的效率。

技术领域

发明涉及大数据日志分析领域,特别涉及一种日志检索方法、装置、设备及介质。

背景技术

目前,在Web(World Wide Web,全球广域网)应用系统中,通常需要记录业务访问历史数据,一般是以访问日志形式记录。访问日志中一般要包括:时间、客户端IP(InternetProtocol,网际互连协议)、访问域名、访问URL(Uniform Resource Locator,统一资源定位符)等等。访问日志存储系统要求提供必要的检索能力,例如按照时间、客户端IP、域名、URL等检索。海量访问日志下的URL检索,相比其他条件检索的复杂度更高,其检索算法至关重要。目前常见的检索算法通常基于哈希散列、红黑树字典树等经典算法的优化,其数据预处理和实时检索的效率和开销存在较大瓶颈,并且无法针对特定Web应用系统的访问日志进行自动的效率优化。

由上可见,在日志检索的过程中,如何增加日志检索的效率,提高日志检索的准确性是本领域有待解决的问题。

发明内容

有鉴于此,本发明的目的在于提供一种日志检索方法、装置、设备及介质,能够有效增加日志检索的效率,提高日志检索的准确性。其具体方案如下:

第一方面,本申请公开了一种日志检索方法,包括:

获取原始日志,并利用预设划分方法将所述原始日志的统一资源定位符划分为各token,并基于所述统一资源定位符和所述各token创建数据库;

利用预设分类方法对所述数据库中各token进行分类,以得到不同种类的token,并基于所述不同种类的token和所述数据库中的所有token确定出每种token的逆向词频;

基于所述每种token的逆向词频确定出符合业务需求的各目标token,并将所述各目标token和所述各目标token对应的原始日志保存至所述数据库;

利用所述数据库对预设模型进行训练,以得到训练后模型,然后获取目标统一资源定位符,并基于所述训练后模型确定出与所述目标统一资源定位符对应的原始日志。

可选的,所述利用预设划分方法将所述原始日志的统一资源定位符划分为各token,包括:

从所述原始日志的统一资源定位符中确定出目标字符的位置;其中,所述目标字符包括斜线“/”、问号“?”以及连接符“”;

基于所述目标字符的位置对所述原始日志的统一资源定位符进行分割,以得到各token。

可选的,所述基于所述不同种类的token和所述数据库中的所有token确定出每种token的逆向词频,包括:

确定出每种token的数量,并统计出所述数据库中所有token的数量;

分别计算出所述每种token的数量与所述所有token的数量的比值,以得到每种token的词频,并基于所述每种token的词频确定出每种token的逆向词频。

可选的,所述基于所述每种token的逆向词频确定出符合业务需求的各目标token,包括:

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州安恒信息技术股份有限公司,未经杭州安恒信息技术股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202210318431.7/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top