[发明专利]一种敏感数据识别的方法及设备在审
申请号: | 202110138550.X | 申请日: | 2021-02-01 |
公开(公告)号: | CN112835903A | 公开(公告)日: | 2021-05-25 |
发明(设计)人: | 徐岩;郭义兰;王倪彬 | 申请(专利权)人: | 上海上讯信息技术股份有限公司 |
主分类号: | G06F16/22 | 分类号: | G06F16/22;G06F16/2457;G06F21/62 |
代理公司: | 上海百一领御专利代理事务所(普通合伙) 31243 | 代理人: | 王奎宇;甘章乖 |
地址: | 201203 上海市浦东新区自*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 敏感数据 识别 方法 设备 | ||
本申请的目的是提供一种敏感数据识别的方法及设备,本申请通过根据数据库信息选择待识别的数据库表;对所述待识别的数据库表进行敏感数据识别,得到初始敏感数据类型;根据预先设置的误匹配的数据类型对所述初始敏感数据类型进行重新识别,得到目标敏感数据识别结果。从而避免了识别出非预期的敏感信息类型,提高敏感信息识别的准确度。
技术领域
本申请涉及计算机领域,尤其涉及一种敏感数据识别的方法及设备。
背景技术
目前,大数据应用广泛的同时,个人信息保护受到了前所未有的挑战。人们在享受数据分析给自己生活带来的贴切服务的同时,也深受个人信息泄露甚至被骚扰的困扰,这些个人信息以及部分我们不愿让人看到真实数据的信息统称为敏感信息,因此如何对一份数据来源中的信息进行敏感信息识别进而处理就显得尤为重要。敏感数据识别,是指对数据源中的信息进行扫描识别,通过不同的敏感信息识别算法识别到不同类型的敏感信息。在识别到敏感信息后,对不同的敏感信息进行配置相应的脱敏算法进行脱敏处理,但有时会出现同一种数据被识别为多种敏感数据,比如对数据库中的某张表进行敏感信息识别时,该表中的某一列同时被识别为纳税人识别号,身份证号,护照号等信息。处理这些敏感信息时,对该列实际属于哪种类型的敏感信息会产生歧义,存在某些字段同时属于多种敏感信息类型的情况,既为身份证号,又为纳税人识别号这种现象。这时需要对这些敏感信息类型做出一些处理,以达到可以准确的识别出属于哪种敏感信息类型的效果。
发明内容
本申请的一个目的是提供一种敏感数据识别的方法及设备,解决现有技术中敏感信息识别出非预期的敏感信息类型的问题。
根据本申请的一个方面,提供了一种敏感数据识别的方法,该方法包括:
根据数据库信息选择待识别的数据库表;
对所述待识别的数据库表进行敏感数据识别,得到初始敏感数据类型;
根据预先设置的误匹配的数据类型对所述初始敏感数据类型进行重新识别,得到目标敏感数据识别结果。
进一步地,根据数据库信息选择待识别的数据库表,包括:
根据数据库的数据库类型、数据库名称以及数据库表名选择待识别的数据库表。
进一步地,对所述待识别的数据库表进行敏感数据识别,得到初始敏感数据类型,包括:
对所述待识别的数据库表中每一字段进行敏感数据识别,得到每一字段包含的初始敏感数据类型。
进一步地,所述方法包括:
根据实际的业务场景匹配预先设置的误匹配的数据类型。
进一步地,根据预先设置的误匹配的数据类型对所述初始敏感数据类型进行重新识别之后,包括:
对所述目标敏感数据识别结果进行校对,确定校对结果为不一致的字段;
对所述不一致的字段中的数据进行撤销误匹配设置。
进一步地,对所述不一致的字段中的数据进行撤销误匹配设置,包括:
删除所述不一致的字段中的数据并将实际应包含的数据设置为误匹配后重新进行敏感数据识别。
根据本申请又一个方面,还提供了一种敏感数据识别的设备,所述设备包括:
一个或多个处理器;以及
存储有计算机可读指令的存储器,所述计算机可读指令在被执行时使所述处理器执行如前述所述方法的操作。
根据本申请再一个方面,还提供了一种计算机可读介质,其上存储有计算机可读指令,所述计算机可读指令可被处理器执行以实现如前述所述的方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海上讯信息技术股份有限公司,未经上海上讯信息技术股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110138550.X/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种数据资产识别及使用的方法及设备
- 下一篇:一种对象分配方法和系统