[发明专利]一种基于模式匹配算法的敏感信息脱敏方法在审
申请号: | 201910757737.0 | 申请日: | 2019-08-16 |
公开(公告)号: | CN110489997A | 公开(公告)日: | 2019-11-22 |
发明(设计)人: | 唐舸轩;石波;乔序;赵磊 | 申请(专利权)人: | 北京计算机技术及应用研究所 |
主分类号: | G06F21/62 | 分类号: | G06F21/62 |
代理公司: | 11011 中国兵器工业集团公司专利中心 | 代理人: | 王雪芬<国际申请>=<国际公布>=<进入 |
地址: | 100854*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 脱敏 敏感信息 模式匹配算法 敏感字符串 脱敏处理 原始文本 文本串 混洗 算法 匹配 敏感 替代 记录 改进 保证 | ||
本发明涉及一种基于模式匹配算法的敏感信息脱敏方法,属于数据脱敏技术领域。本发明提出了一种基于模式匹配算法的敏感信息脱敏方法,使用改进后的Sunday算法,对原始文本字符串的敏感信息进行精准匹配与定位,通过记录所有敏感字符串的位置,并通过数据脱敏方法中的替代、混洗等技术,对敏感信息进行脱敏处理。本发明实现了将文本串中敏感的字符进行高效、精准脱敏,同时保证了数据原始价值。
技术领域
本发明属于数据脱敏技术领域,具体涉及一种基于模式匹配算法的敏感信息脱敏方法。
背景技术
敏感数据一般是指不宜公开的含有敏感属性的数据,敏感数据的内容一般能够确定某个体的相关情报信息,比如个人身份证号码、个人手机号码、家庭住址、家庭成员关系等等。数据的安全是信息安全的重要一环,在做模型测试、实验等过程中,经常需要使用一些敏感的数据来训练。为了保护个体的隐私,需要对数据进行脱敏处理。
数据脱敏也叫做数据漂白,是指针对某些敏感信息通过定义的脱敏规则,进行数据的变形和隐藏,从而能够转化为全新的虚构的数据,让窃取数据的人不能获得这些数据的真正含义,从而实现对个体敏感信息的保护。一般来说,数据经过脱敏处理后需要满足如下两个条件:
(1)数据挖掘人员不能访问原始的、真实的数据,即使挖掘人员获得了失真数据,通过分析、重构也无法得到原始的、真实的数据内容。
(2)数据虽然是失真的,但是发布的数据依旧能够保持其性质不发生变化,即失真数据挖掘的知识与基于原始数据挖掘得出的知识是相同或者类似的。对制定的敏感信息进行脱敏,就需要对原始数据的信息进行匹配,对需要脱敏的数据进行脱敏处理,因此在数据脱敏之前,经常采用模式匹配算法,对需要脱敏的字符串进行定位。
模式匹配在网络入侵检测、生物序列数据库比对、信息检索、生物计量学等领域得到了比较广泛的应用。模式匹配按同时匹配模式串的个数,分为单模式匹配和多模式匹配,其中KMT、BM为经典的单模式匹配,AC、WM算法为经典多模式匹配。每种匹配算法都有其最优、最坏匹配复杂度,针对不同模式串的类型,算法各有优缺点,分析如下。
(一)Sunday算法
Sunday算法是对BM算法的一种改进,Sunday算法采用BM算法中坏字符的启发规则,和BM算法相比效率有了较大的提升。例如在文本串T中查找模式串P。
(二)数据脱敏方法
数据脱敏技术包括很多方法,常用的技术是采用替代、混洗、数值变换、加密、遮挡、空值插入/删除等数据脱敏方法,力求在度量脱敏后数据的各重要指标之间取得平衡。这包括统计特征和真实度、计算资源开销、保持原有数据感观、脱敏结果是否可能被反向推出原始数据等。
发明内容
(一)要解决的技术问题
本发明要解决的技术问题是:如何将文本数据中敏感的字符进行高效、精准脱敏,同时保证数据原始价值。
(二)技术方案
为了解决上述技术问题,本发明提供了一种基于模式匹配算法的敏感信息脱敏方法,包括以下步骤:
步骤1:定义待脱敏的文本数据,提取文本数据中的文本串T,后续对文本串T进行敏感信息的脱敏;
步骤2:根据需求确定需要脱敏的敏感信息为模式串P,作为对文本串T进行模式匹配的对象;
步骤3:使用Sunday算法对待脱敏的文本数据进行模式匹配,记录敏感数据位置;
步骤4:构造出敏感数据位置记录表;
步骤5:使用脱敏方法,对待脱敏的文本数据中的所有敏感数据进行脱敏处理。
优选地,所述待脱敏的文本数据为PDF文档。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京计算机技术及应用研究所,未经北京计算机技术及应用研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910757737.0/2.html,转载请声明来源钻瓜专利网。