[发明专利]文本脱敏方法以及装置有效
申请号: | 201910779947.X | 申请日: | 2019-08-22 |
公开(公告)号: | CN110633577B | 公开(公告)日: | 2023-08-29 |
发明(设计)人: | 岳聪 | 申请(专利权)人: | 创新先进技术有限公司 |
主分类号: | G06F21/62 | 分类号: | G06F21/62 |
代理公司: | 北京智信禾专利代理有限公司 11637 | 代理人: | 李晓庆 |
地址: | 开曼群岛大开曼岛乔治镇医院*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本申请提供文本脱敏方法以及装置,其中所述文本脱敏方法包括:对待脱敏文本进行向量化处理,获得待脱敏文本的词向量;基于文本特征对词向量进行标注,获得标注后的词向量在待脱敏文本中对应的词单元组成的词单元集合;根据词单元集合中包含的词单元的支持度创建频繁项集,并计算频繁项集中包含的频繁项的提升度;将提升度大于预设提升度阈值的频繁项对应的词单元确定为敏感词单元,并根据敏感词单元对待脱敏文本进行脱敏处理,获得脱敏文本。通过文本脱敏方法,提高了识别敏感词单元的准确率和覆盖率,从而在对文本进行脱敏的过程中能够提高文本中重要信息的脱敏效果,进而使得经过脱敏处理的文本中重要的信息得到了有效的保护。 | ||
搜索关键词: | 文本 方法 以及 装置 | ||
【主权项】:
1.一种文本脱敏方法,其特征在于,包括:/n对待脱敏文本进行向量化处理,获得所述待脱敏文本的词向量;/n基于文本特征对所述词向量进行标注,获得标注后的词向量在所述待脱敏文本中对应的词单元组成的词单元集合;/n根据所述词单元集合中包含的词单元的支持度创建频繁项集,并计算所述频繁项集中包含的频繁项的提升度;/n将所述提升度大于预设提升度阈值的频繁项对应的词单元确定为敏感词单元,并根据所述敏感词单元对所述待脱敏文本进行脱敏处理,获得脱敏文本。/n
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于创新先进技术有限公司,未经创新先进技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201910779947.X/,转载请声明来源钻瓜专利网。
- 上一篇:数据处理
- 下一篇:智能共享云存储方法与系统