[发明专利]基于字符串唯一性与可重复性置换输出的方法在审
申请号: | 201811301201.X | 申请日: | 2018-11-02 |
公开(公告)号: | CN109408534A | 公开(公告)日: | 2019-03-01 |
发明(设计)人: | 程永新;谢涛;孙钊雄;郭振宇 | 申请(专利权)人: | 上海新炬网络信息技术股份有限公司 |
主分类号: | G06F16/245 | 分类号: | G06F16/245;G06F16/28 |
代理公司: | 上海科律专利代理事务所(特殊普通合伙) 31290 | 代理人: | 袁亚军;金碎平 |
地址: | 201707 上海市青浦区外青*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 唯一性 缓存库 置换 目标值数据 可重复性 敏感数据 字符串 输出 集合 缓存 保留数据 处理效率 集群环境 敏感信息 输出特性 数据共享 数据通过 隐藏数据 源数据库 接收源 可重复 目标库 原有的 源数据 字典库 写入 字典 查找 返回 重复 保证 | ||
本发明公开了一种基于字符串唯一性与可重复性置换输出的方法,包括:S1:将字典库中的数据通过Java程序缓存到Redis缓存库的字典缓存库中;S2:将源数据库的敏感数据,通过Java程序分批输送到Redis程序中;S3:Redis程序通过步骤S2接收源数据,查找Redis缓存库中的数据,并将敏感数据置换为目标值;S4:Redis程序将目标值数据集合返回给Java程序;S5:Java程序将目标值数据集合写入到目标库;S6:重复步骤S2‑S5,完成所有源数据的置换输出。本发明隐藏数据敏感信息的同时,保留数据原有的业务意义;支持集群环境下的数据共享,提高处理效率;保证数据的唯一性和可重复输出特性。
技术领域
本发明涉及一种数据脱敏方法,尤其涉及一种基于字符串唯一性与可重复性置换输出的方法。
背景技术
在当前大数据的时代,数据被业界公认为是企业的最宝贵资产之一,通过对其累积的数据进行分析,以便实时掌握市场动态并迅速做出策略应对,或为其制定精准有效的营销策略提供决策支持,也可以帮助企业为消费者提供更加及时和个性化的服务。但一旦数据发生外泄,不仅会给企业信誉带来风险的同时,也使消费者因个人信息泄露而承担未知的潜在危险,例如钓鱼网站、欺诈网站、病毒木马、伪基站、垃圾短信和骚扰电话等各种网络诈骗和骚扰的罪魁祸首主要来自于个人信息的泄露。
为保障具有敏感信息的数据不外泄,可根据制定的脱敏规则对数据进行漂白,或称数据脱敏。一般来说,只要将带有敏感信息的数据通过排序,加密,生成随机值替换等手段即可隐藏敏感信息,但一些具有业务意义的特殊数据,通过以上所述的手段进行脱敏,将会破坏数据的业务意义,为了保留数据的业务意义,现有技术的做法是通过穷举一个具有相似业务意义的数据集合(下文称为字典),然后按顺序或随机去替换具有敏感信息的数据(下文称为源数据),以达到掩盖数据敏感信息,并保留原本业务意义的目的。现有技术具体方式如下:
1)直接改造源数据信息:处理程序从源数据库加载源数据,处理程序根据制定的规则对源数据进行加密,排序,生成随机置换等方式生成目标值,最后将目标值输出到目标库中。
2)在本地文件存储字典数据进行敏感数据置换:预先将字典值集合存储在本地文件(如excel,cvs,text等文本文件),通过处理程序,将需要脱敏的敏感源从源数据库中加载到处理程序内存,每个敏感源根据制定好的规则,到字典文件中查找符合规则的置换值,最后将置换值输出到目标库中。
现有技术存在以下缺点:
1、无法同时确保数据的唯一性和数据可重复输出:现有技术通过源数据的特征,计算出一个位置数字,用来对应字典表中某个位置的字典值,该做法虽然可以确保数据可重复输出(即相同源数据脱敏出相同目标值),但由于字典表的字典数量是有穷,而源数据在理论上的数量是无穷,用一个有穷得集合去表示一个无穷集合,必定会出现重复数据(即不同源数据脱敏出相同目标值),无法保证数据的唯一性。
2、数据无法共享:用本地缓存处理脱敏数据,利用其内存的快速读写性能,并且无需消耗因远程网络导致的时间延时,可以最大限度提高脱敏处理效率。但随着大数据时代的到来,单纯一台机器的性能对处理大数据量的运算时已显得力不从心,而超级计算机的几个又极其昂贵,为了应付上述大数据量运算,业界采用集群技术,将多台相互独立的、通过高速网络互连的计算机,组成一个独立服务器,在付出较低成本的情况下获得高性能的数据处理能力。但由于集群中每台计算机都是独立存在,如果利用计算机的本地缓存处理脱敏数据处理同一任务,无法让每台计算机之间的数据共享,所以本地缓存处理脱敏数据只适合在单机运行环境下,在集群环境下的数据无法实现共享。
3、低效率:用数据库处理脱敏数据,可以解决上述第2点数据无法在集群环境下实现共享问题。但数据中因为数据需要落地文件,I/O瓶颈严重影响脱敏性能,无法保证脱敏效率,并且程序访问数据库是通过远程网络连接,所以每次访问数据库都需要消耗网络延时,而且访问频率也高,消耗网络延时将越长。
因此,需要一种数据的可重复输出与唯一性同时实现的高效的数据脱敏方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海新炬网络信息技术股份有限公司,未经上海新炬网络信息技术股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811301201.X/2.html,转载请声明来源钻瓜专利网。