[发明专利]一种双层过滤式的数据脱敏方法和系统在审
申请号: | 201810186413.1 | 申请日: | 2018-03-07 |
公开(公告)号: | CN108537056A | 公开(公告)日: | 2018-09-14 |
发明(设计)人: | 吕军震;于国方;胥洪锋;马利强;李长松;武佳 | 申请(专利权)人: | 新博卓畅技术(北京)有限公司 |
主分类号: | G06F21/62 | 分类号: | G06F21/62 |
代理公司: | 北京驰纳智财知识产权代理事务所(普通合伙) 11367 | 代理人: | 陈常美 |
地址: | 065001 河北省*** | 国省代码: | 河北;13 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 脱敏 双层过滤式 脱敏过程 仿真数据库 人为控制 脱敏处理 字段 敏感 干预 监管 学习 | ||
本发明提供一种双层过滤式的数据脱敏方法和系统,其中方法包括提取待识别数据,还包括以下步骤:提取所述待识别数据中的敏感字段;生成仿真数据库;对数据进行脱敏处理。采用双层过滤式脱敏,同时满足单向脱敏和高仿真的脱敏过程需求。强化了脱敏过程的人为控制能力,对机器脱敏过程的进行监管和学习干预。
技术领域
本发明涉及数据分析的技术领域,特别是一种双层过滤式的数据脱敏方法和系统。
背景技术
医院业务系统积累了大量患者病历信息,这些数据对病人是个人及疾病的隐私数据,如果这些敏感数据被泄露,不但会给医院带来经济和声誉上的损失,还会威胁到患者的财产和个人安全。
数据脱敏是指对某些敏感信息通过脱敏规则进行数据的变形,实现敏感隐私数据的可靠保护。这样,就可以在开发、测试和其它非生产环境中安全地使用脱敏后的真实数据集。
加密和删除敏感数据是数据脱敏的两种常用方法,这两种方法都有一定的缺陷。加密脱敏能够保证数据的一致性,但不同加密算法生成的数据仿真性较差,破解了加密数据就相当于得到了用户的原始数据,因此安全等级不高;删除敏感数据是通过删除或替换部分关键数据达到脱敏效果的脱敏方法,脱敏过程为数据带来了一定程度的信息损坏,不能保障了数据唯一性和可标识别性。
公开号为CN106295400A的发明专利公开了一种蒙版式数据脱敏方法及相关设备,其中方法包括建立敏感字段规则库、定位敏感字段、生成脱敏数据蒙版、调用脱敏数据等步骤,可以实现大批量、高仿真的。该方法是设置内置的敏感字段识别规则已达到识别、生成和脱敏处理目标的目的,不能够通过人工干预和系统自学习的方法,自动增减敏感字段数据库中的内容。
发明内容
为了解决上述的技术问题,本发明提出一种双层过滤式的数据脱敏方法和系统,采用双层过滤式脱敏,同时满足单向脱敏和高仿真的脱敏过程需求。强化了脱敏过程的人为控制能力,对机器脱敏过程的进行监管和学习干预。
本发明的第一目的是提供了一种双层过滤式的数据脱敏方法,包括提取待识别数据,还包括以下步骤:
步骤1:提取所述待识别数据中的敏感字段;
步骤2:生成仿真数据库;
步骤3:对数据进行脱敏处理。
优选的是,所述步骤1包括以下子步骤:
步骤11:识别所述敏感字段;
步骤12:校对识别结果。
在上述任一方案中优选的是,所述步骤11包括根据常规规则判断所述敏感字段。
在上述任一方案中优选的是,所述步骤11还包括利用分词统计模型检查方式分析数据是否为所述敏感字段,并确定所述敏感字段类别。
在上述任一方案中优选的是,所述分词统计模型包括模型字符类型分析参数S1、模型字符长度分析参数S2、模型词频数量分析参数S3和模型词频位置分析参数S4中至少一种。
在上述任一方案中优选的是,所述模型字符类型分析参数S1是指带判定字段S的字符占比评价的得分,计算公式为S1=[100-ABSC1-C/100,其中,C1为待比较的字段字符比例,C为模型的字段字符比例。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于新博卓畅技术(北京)有限公司,未经新博卓畅技术(北京)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810186413.1/2.html,转载请声明来源钻瓜专利网。