[发明专利]文本脱敏方法以及装置有效
申请号: | 201910779947.X | 申请日: | 2019-08-22 |
公开(公告)号: | CN110633577B | 公开(公告)日: | 2023-08-29 |
发明(设计)人: | 岳聪 | 申请(专利权)人: | 创新先进技术有限公司 |
主分类号: | G06F21/62 | 分类号: | G06F21/62 |
代理公司: | 北京智信禾专利代理有限公司 11637 | 代理人: | 李晓庆 |
地址: | 开曼群岛大开曼岛乔治镇医院*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本 方法 以及 装置 | ||
本申请提供文本脱敏方法以及装置,其中所述文本脱敏方法包括:对待脱敏文本进行向量化处理,获得待脱敏文本的词向量;基于文本特征对词向量进行标注,获得标注后的词向量在待脱敏文本中对应的词单元组成的词单元集合;根据词单元集合中包含的词单元的支持度创建频繁项集,并计算频繁项集中包含的频繁项的提升度;将提升度大于预设提升度阈值的频繁项对应的词单元确定为敏感词单元,并根据敏感词单元对待脱敏文本进行脱敏处理,获得脱敏文本。通过文本脱敏方法,提高了识别敏感词单元的准确率和覆盖率,从而在对文本进行脱敏的过程中能够提高文本中重要信息的脱敏效果,进而使得经过脱敏处理的文本中重要的信息得到了有效的保护。
技术领域
本申请涉及数据处理技术领域,特别涉及一种文本脱敏方法。本申请同时涉及一种文本脱敏装置,一种计算设备,以及一种计算机可读存储介质。
背景技术
随着互联网技术的发展,用户的隐私以及文件中重要信息变得不再安全,为了保证用户的隐私以及文件中重要信息的安全性,出现了数据脱敏技术;数据脱敏技术是指将用户的隐私或者文件中较为重要的信息进行替换或者进行数据的变形,从而保证用户隐私中重要信息以及文件中重要信息的安全性。
目前,在对文本进行数据脱敏的过程中,通常采用人工规则集以及正则表达式的方式进行识别文本中的敏感信息,再根据识别出的敏感信息对文本进行脱敏处理,获得脱敏后的文本。
然而,无论是人工规则集还是正则表达式在对文本中的敏感信息进行识别的过程中,其识别敏感信息的覆盖率并不高,并且还需要人工不断的对规则集进行扩充,既浪费人工资源又无法保证识别敏感信息的覆盖率,很难保证文本中全部重要信息的安全性。
发明内容
有鉴于此,本申请实施例提供了一种文本脱敏方法。本申请同时涉及一种文本脱敏装置,一种计算设备,以及一种计算机可读存储介质,以解决现有技术中存在的技术缺陷。
根据本申请实施例的第一方面,提供了一种文本脱敏方法,包括:
对待脱敏文本进行向量化处理,获得所述待脱敏文本的词向量;
基于文本特征对所述词向量进行标注,获得标注后的词向量在所述待脱敏文本中对应的词单元组成的词单元集合;
根据所述词单元集合中包含的词单元的支持度创建频繁项集,并计算所述频繁项集中包含的频繁项的提升度;
将所述提升度大于预设提升度阈值的频繁项对应的词单元确定为敏感词单元,并根据所述敏感词单元对所述待脱敏文本进行脱敏处理,获得脱敏文本。
可选的,所述对待脱敏文本进行向量化处理,获得所述待脱敏文本的词向量,包括:
获取所述待脱敏文本;
通过对所述待脱敏文本进行分句处理,获得句单元;
将所述句单元进行分词处理,根据分词处理结果构建所述待脱敏文本的文本共现矩阵;
通过对所述文本共现矩阵进行转换,获得所述待脱敏文本的词向量。
可选的,所述对待脱敏文本进行向量化处理,获得所述待脱敏文本的词向量步骤执行之后,所述基于文本特征对所述词向量进行标注,获得标注后的词向量在所述待脱敏文本中对应的词单元组成的词单元集合步骤执行之前,包括:
根据所述词向量确定所述待脱敏文本对应的句单元的句向量;
将所述句向量进行转换,获得所述句向量对应的正向句向量以及反向句向量;
通过将所述正向句向量以及所述反向句向量进行拼接,根据拼接结果确定所述句单元的文本特征。
可选的,所述基于文本特征对所述词向量进行标注,获得标注后的词向量在所述待脱敏文本中对应的词单元组成的词单元集合,包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于创新先进技术有限公司,未经创新先进技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910779947.X/2.html,转载请声明来源钻瓜专利网。
- 上一篇:数据处理
- 下一篇:智能共享云存储方法与系统