[发明专利]一种识别敏感数据的方法、装置、存储介质及计算机设备在审

申请号：	201910337266.8	申请日：	2019-04-25
公开（公告）号：	CN110222170A	公开（公告）日：	2019-09-10
发明（设计）人：	许超俊	申请（专利权）人：	平安科技（深圳）有限公司
主分类号：	G06F16/35	分类号：	G06F16/35;G06F16/335;G06F17/27
代理公司：	北京中强智尚知识产权代理有限公司 11448	代理人：	黄耀威
地址：	518000 广东省深圳市福田街***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	敏感数据字段计算机设备存储介质识别子子模型敏感敏感信息模型判断准确度分类维度
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明提供了一种识别敏感数据的方法、装置、存储介质及计算机设备，其中，该方法包括：建立识别模型；获取待测信息；根据识别子模型判断待测字段是否为敏感字段，并根据分类子模型判断待测数据是否为敏感数据；在待测字段是敏感字段且待测数据是敏感数据时，确定待测信息为敏感的信息。该方法在识别敏感数据时增加识别数据的字段的过程，通过建立识别子模型和分类子模型对待识别的待测信息中的待测字段和待测数据分别进行识别判断，基于字段和数据两个维度来确定待测信息是否为敏感信息，从而可以更加准确的判断待测数据是否为敏感数据，可以使得识别准确度更高。

技术领域

本发明涉及数据识别技术领域，特别涉及一种识别敏感数据的方法、装置、存储介质及计算机设备。

背景技术

敏感信息一般指涉及隐私权的信息，包括财产信息、健康生理信息、生物识别信息、身份信息和网络身份标识信息等，比如，身份证号、银行卡号、电话号码、网页浏览记录、行踪轨迹等。

用户相关的敏感信息目前主要依靠人工识别与定义模糊校验字段实现对用户敏感信息的获取。人工识别大量表字段时人力消耗较高，主观性较强，出现漏识别、错识别的可能性较高。自定义模糊校验字段的方法容易造成字段名称在选取后模糊匹配时发生错误，将不该匹配的字段匹配上，或者因为模糊匹配范围过小将该匹配的字段漏过。并且自定义模糊校验字段的方法需要大量的理解数据和阅读数据，并进行人工的定义，对操作人员的业务能力和数据理解的能力要求较高。

发明内容

为了解决现有技术存在的问题，本发明提供一种识别敏感数据的方法、装置、存储介质及计算机设备。

根据本发明的第一个方面，提供一种识别敏感数据的方法，包括：

建立识别模型，所述识别模型包括用于识别字段是否为敏感字段的识别子模型和用于区分敏感数据和非敏感数据的分类子模型；

获取待测信息，所述待测信息包括待测字段和与所述待测字段相对应的待测数据；

根据所述识别子模型判断所述待测字段是否为敏感字段，并根据所述分类子模型判断所述待测数据是否为敏感数据；

在所述待测字段是敏感字段且所述待测数据是敏感数据时，确定所述待测信息为敏感的信息。

根据本发明的第二个方面，提供一种识别敏感数据的装置，包括：

模型模块，用于建立识别模型，所述识别模型包括用于识别字段是否为敏感字段的识别子模型和用于区分敏感数据和非敏感数据的分类子模型；

获取模块，用于获取待测信息，所述待测信息包括待测字段和与所述待测字段相对应的待测数据；

判断模块，用于根据所述识别子模型判断所述待测字段是否为敏感字段，并根据所述分类子模型判断所述待测数据是否为敏感数据；

识别处理模块，用于在所述待测字段是敏感字段且所述待测数据是敏感数据时，确定所述待测信息为敏感的信息。