[发明专利]一种数据脱敏方法及系统在审
申请号: | 202211386176.6 | 申请日: | 2022-11-07 |
公开(公告)号: | CN115906115A | 公开(公告)日: | 2023-04-04 |
发明(设计)人: | 刘航宇 | 申请(专利权)人: | 中银金融科技有限公司 |
主分类号: | G06F21/60 | 分类号: | G06F21/60;G06F18/23213;G06F18/22 |
代理公司: | 北京路浩知识产权代理有限公司 11002 | 代理人: | 张正秋 |
地址: | 200120 上海市浦东新区(上*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 数据 方法 系统 | ||
本发明提供一种数据脱敏方法及系统,该方法包括:基于不同的脱敏算法,对生产数据集中的原始数据进行脱敏处理,得到脱敏数据集;通过预设聚类算法,对所述原始数据与所述脱敏数据集中的脱敏数据进行聚类,得到第一聚类中心与多个第二聚类中心,其中,所述第一聚类中心为所述原始数据对应的聚类中心,所述第二聚类中心为通过不同的脱敏算法得到的脱敏数据所对应的聚类中心;根据各个所述第二聚类中心与所述第一聚类中心之间的相似度,确定所述脱敏数据集中的目标脱敏数据。本发明提高了数据脱敏的安全性,降低数据泄露的风险。
技术领域
本发明涉及数据处理技术领域,尤其涉及一种数据脱敏方法及系统。
背景技术
数据脱敏又称数据去隐私化或数据变形,是在预设规则下对敏感数据进行变换、修改的技术机制,能够在很大程度上解决敏感数据在非可信环境中使用的问题。数据脱敏技术并不需要对所有信息进行加密,数据脱敏保存了数据原有的格式,在不需要解密的条件下,降低数据敏感度,从而兼顾了数据安全与数据使用,使得脱敏后的数据依然可以用于分析和测试。
现有数据脱敏方式过于简单和单一,主要是对客户证件号,手机号等敏感数据进行整体加密,但这些数据本身带有固定的地区码和地区编号,即使脱敏后也具有关联性和规律性,脱敏后的数据还是存在泄露风险。
因此,现在亟需一种数据脱敏方法及系统来解决上述问题。
发明内容
针对现有技术存在的问题,本发明提供一种数据脱敏方法及系统。
本发明提供一种数据脱敏方法,包括:
基于不同的脱敏算法,对生产数据集中的原始数据进行脱敏处理,得到脱敏数据集;
通过预设聚类算法,对所述原始数据与所述脱敏数据集中的脱敏数据进行聚类,得到第一聚类中心与多个第二聚类中心,其中,所述第一聚类中心为所述原始数据对应的聚类中心,所述第二聚类中心为通过不同的脱敏算法得到的脱敏数据所对应的聚类中心;
根据各个所述第二聚类中心与所述第一聚类中心之间的相似度,确定所述脱敏数据集中的目标脱敏数据。
根据本发明提供的一种数据脱敏方法,所述基于不同的脱敏算法,对生产数据集中的原始数据进行脱敏处理,得到脱敏数据集,包括:
通过不同的脱敏算法,分别对所述生产数据集中同一原始数据进行脱敏处理,得到每个原始数据对应的多种脱敏数据;
根据每个原始数据对应的多种脱敏数据,构建脱敏数据集。
根据本发明提供的一种数据脱敏方法,在所述基于不同的脱敏算法,对生产数据集中的原始数据进行脱敏处理,得到脱敏数据集之前,所述方法还包括:
通过多种不同的数据源,获取多个原始数据,其中,所述原始数据至少包括姓名、身份证号码、电话号码和邮箱地址;
根据所述原始数据,构建生产数据集;
对所述生产数据集中的数据进行去重处理,得到目标生产数据集;
所述基于不同的脱敏算法,对生产数据集中的原始数据进行脱敏处理,得到脱敏数据集,包括:
基于不同的脱敏算法,对所述目标生产数据集中的原始数据进行脱敏处理,得到脱敏数据集。
根据本发明提供的一种数据脱敏方法,所述根据各个所述第二聚类中心与所述第一聚类中心之间的相似度,确定所述脱敏数据集中的目标脱敏数据,包括:
计算各个所述第二聚类中心与所述第一聚类中心之间的相似度,若所述相似度大于或等于第一相似度阈值,则将所述第二聚类中心对应的脱敏数据删除;
若所述相似度小于第二相似度阈值,则确定所述第二聚类中心对应的脱敏数据为目标脱敏数据;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中银金融科技有限公司,未经中银金融科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211386176.6/2.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置