[发明专利]一种日志脱敏方法、装置、电子设备及存储介质在审
申请号: | 202310017423.3 | 申请日: | 2023-01-06 |
公开(公告)号: | CN116244740A | 公开(公告)日: | 2023-06-09 |
发明(设计)人: | 公娟;杨辰;葛晓波 | 申请(专利权)人: | 上海擎创信息技术有限公司 |
主分类号: | G06F21/62 | 分类号: | G06F21/62;G06F16/18;G06F16/14;G06F18/23 |
代理公司: | 北京品源专利代理有限公司 11332 | 代理人: | 郭德霞 |
地址: | 200436 上海市静*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 日志 方法 装置 电子设备 存储 介质 | ||
本发明公开了一种日志脱敏方法、装置、电子设备及存储介质。方法包括:获取待处理日志信息,将待处理日志信息在日志模板库中进行匹配,确定匹配成功的日志模板;基于日志模板的敏感位置确定待处理日志信息中的敏感内容,以及根据日志模板的敏感类型确定敏感内容的敏感类型;对待处理日志信息中的敏感内容进行脱敏处理,得到脱敏日志信息。本发明方法包含离线训练阶段和实时检测阶段,离线训练阶段根据Drain聚类算法对训练日志聚类获得模板,通过正则表达式和自然语言处理算法进行变量敏感内容的敏感类型的识别,实时检测阶段根据模板中保存的变量敏感类型实现快速脱敏,实现了可重复使用日志模板达到日志信息脱敏的功能,提高了日志信息脱敏的效率。
技术领域
本发明涉及信息处理技术领域,尤其涉及一种日志脱敏方法、装置、电子设备及存储介质。
背景技术
金融行业的数据库中储存着大量用户的信息,这些敏感数据在银行、保险、证券等金融行业的众多业务场景中被加以使用,例如业务分析、开发测试、审计监管以及各类外包业务等。为保证用户信息需要对敏感信息进行脱敏处理。对于敏感信息的脱敏处理多采用添加注解或者是采用一些脱敏插件等方式。
基于上述采用的技术方案,容易产生该添加注解的地方没有添加注解,导致遍历的过程中查找不准确,从而使得漏敏感信息;另外,对于采用脱敏插件的方式,需要根据不同类型的敏感信息进行替换,降低了日志脱敏的效率。
发明内容
本发明提供了一种日志脱敏方法、装置、电子设备及存储介质,以解决对敏感信息进行脱敏的过程中产生的信息遗漏问题以及脱敏效率低的问题。
根据本发明的一方面,提供了一种日志脱敏方法,包括:
获取待处理日志信息,将待处理日志信息在日志模板库中进行匹配,确定匹配成功的日志模板;
基于日志模板的敏感位置确定待处理日志信息中的敏感内容,以及根据日志模板的敏感类型确定敏感内容的敏感类型;
对待处理日志信息中的敏感内容进行脱敏处理,得到脱敏日志信息。
可选的,日志模板库中包括多个日志模板,各日志模板分别对应设置有敏感位置和敏感类型。
可选的,日志模板库的构建过程包括:
获取多个训练日志信息,对训练日志信息进行聚类处理,得到各类日志信息集合;
对于任一类日志信息集合,确定日志信息集合对应的日志模板;
基于各类日志信息集合对应的日志模板,形成日志模板库。
可选的,日志模板库的构建过程包括:
获取训练日志信息,将训练日志信息在当前的日志模板库中进行匹配;
若匹配成功,则将训练日志信息的变量内容存储至匹配成功的日志模板对应的数据集;
若匹配失败,则将训练日志信息作为日志模板,更新到日志模板库中。
可选的,方法还包括:
识别日志模板库中各日志模板中敏感内容的敏感类型和敏感内容的敏感位置,其中,敏感内容的敏感类型的内容识别规则包括正则表达式、自然语言处理的词性标注一项或多项。
可选的,对待处理日志信息中的敏感内容进行脱敏处理,得到脱敏日志信息,包括:
根据敏感内容的敏感类型,调用对应的脱敏规则,基于调用的脱敏规则对敏感内容进行脱敏处理。
可选的,方法还包括:
若待处理日志信息在日志模板库中匹配失败,则将待处理日志进行缓存,并生成日志模板库的更新提示信息;或者,基于待处理日志信息更新日志模板库。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海擎创信息技术有限公司,未经上海擎创信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202310017423.3/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种低压用户负荷的感知测量调控方法
- 下一篇:一种屋面光伏系统安装结构