[发明专利]一种基于数据字典的保持唯一性、完整性、关联性的数据脱敏方法在审
申请号: | 201910746572.7 | 申请日: | 2019-08-14 |
公开(公告)号: | CN110457949A | 公开(公告)日: | 2019-11-15 |
发明(设计)人: | 于向东 | 申请(专利权)人: | 于向东 |
主分类号: | G06F21/62 | 分类号: | G06F21/62;G06F16/28 |
代理公司: | 11543 北京八月瓜知识产权代理有限公司 | 代理人: | 马东瑞<国际申请>=<国际公布>=<进入 |
地址: | 102218北京市昌平区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 脱敏 数据字典表 字典表 工作路径 跳转 额外开销 公钥解密 解决冲突 数据字典 算法计算 文件加载 唯一性 传统的 关联性 检测 私钥 调用 内存 加密 写入 | ||
本发明涉及一种基于数据字典的保持唯一性、完整性、关联性的数据脱敏方法。该方法包括:步骤1:检测在内存中是否存在脱敏数据字典表;步骤2:如果存在,则调用脱敏数据字典表进行数据脱敏作业;步骤3:如果不存在,则检测在本地工作路径中是否存在字典表文件;步骤4:如果本地存在字典表文件,则将字典表文件加载到内存中,利用公钥解密,在内存中形成脱敏数据字典表,然后跳转到步骤2;步骤5:如果本地不存在字典表文件,则依次生成脱敏数据字典表并且利用私钥进行加密,写入本地工作路径中,然后跳转到所述步骤3。本发明解决了传统的数据脱敏事中算法计算和解决冲突碰撞的额外开销的问题,节省了大量人工,提高了整体性能。
技术领域
本发明涉及信息安全的技术领域,具体地涉及一种基于数据字典的保持唯一性、完整性、关联性的数据脱敏方法。
背景技术
目前,数据脱敏系统及技术已经有20年左右的历史,随着大数据及数据变现市场的发展,一方面世界各国都加强了个人隐私保护的立法,对数据的分发、共享提出更高的脱敏要求,另一方面数据共享使用方希望得到保持数据业务特征的更高仿真特性的数据。
高仿真数据首先需要保持业务特征,即,针对身份证号码脱敏后,数据还是一个符合业务规则的身份证号码。
高仿真数据还应该具有以下几个特征:
唯一性:脱敏前后的唯一候选值数量相同,即,脱敏前后身份证号码数量一致。
完整性:脱敏前后数据量保持一致,即,脱敏前后数据总记录数一致同时各个身份证号码的对应记录数保持一致。
关联性:不同实体的同一信息脱敏后的对应数据保持一致,即同一个身份证号码在不同的实体中脱敏后的值保持一致。
为了保持关联性,传统数据脱敏基本都采用进行实体建模的方式,通过实体建模的方式描述数据之间的关联关系,以达到脱敏后的数据还保持关联的目的。存在的问题就是实体建模需要相当大的工作量。
为了保持唯一性和完整性,传统脱敏要解决在脱敏执行过程中的类似随机因子、哈希算法产生的冲突碰撞问题,从而带来性能瓶颈。
发明内容
本发明所要解决的技术问题是提供一种基于数据字典的保持唯一性、完整性、关联性的数据脱敏方法,解决了传统的数据脱敏事中算法计算和解决冲突碰撞的额外开销的问题,使得节省了大量人工,提高了整体性能。
通过本发明可以实现的技术目的不限于上文已经特别描述的内容,并且本领域技术人员将从下面的详细描述中更加清楚地理解本文中未描述的其他技术目的。
本发明解决上述技术问题的技术方案如下:
根据本公开的第一方面,本发明提供一种基于数据字典的保持唯一性、完整性、关联性的数据脱敏方法,其包括:
步骤1:检测在内存中是否存在脱敏数据字典表;
步骤2:如果在所述内存中存在所述脱敏数据字典表,则调用所述脱敏数据字典表进行数据脱敏作业(针对待脱敏数据中的若干字符串采用脱敏数据字典表中相应的字符串进行替换);
步骤3:如果在所述内存中不存在所述脱敏数据字典表,则检测在本地工作路径中是否存在字典表文件;
步骤4:如果本地存在所述字典表文件,则将所述字典表文件加载到所述内存中,利用公钥对所述字典表文件进行解密,在所述内存中形成所述脱敏数据字典表,然后跳转到所述步骤2;以及
步骤5:如果本地不存在所述字典表文件,则依次生成所述脱敏数据字典表并且利用私钥对所述脱敏数据字典表进行加密,将所述脱敏数据字典表写入所述本地工作路径中,然后跳转到所述步骤3。
可选地,在如上所述的方法中,所述脱敏数据字典表包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于于向东,未经于向东许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910746572.7/2.html,转载请声明来源钻瓜专利网。