[发明专利]一种基于大数据的敏感数据确定方法及装置在审
申请号: | 201910774931.X | 申请日: | 2019-08-21 |
公开(公告)号: | CN110472036A | 公开(公告)日: | 2019-11-19 |
发明(设计)人: | 黄山姗 | 申请(专利权)人: | 恩亿科(北京)数据科技有限公司 |
主分类号: | G06F16/335 | 分类号: | G06F16/335;G06F17/27 |
代理公司: | 11463 北京超凡宏宇专利代理事务所(特殊普通合伙) | 代理人: | 宋朋飞<国际申请>=<国际公布>=<进入 |
地址: | 100000 北京市海淀区西小口路66*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 敏感数据 目标数据 数据解析方式 筛选条件 数据解析 非结构化数据 数据采用 大数据 识别率 解析 申请 筛选 | ||
1.一种基于大数据的敏感数据确定方法,其特征在于,所述方法包括:
获取敏感数据的第一筛选条件;
基于目标数据集内数据的类型,确定目标数据集的数据解析方式,并利用所述数据解析方式对所述目标数据集进行数据解析;
基于所述敏感数据的第一筛选条件,对数据解析后的目标数据集中的数据进行筛选,得到第一类型敏感数据。
2.根据权利要求1所述的方法,其特征在于,所述基于目标数据集内数据的类型,确定目标数据集的数据解析方式,并利用所述数据解析方式对所述目标数据集进行数据解析包括:
若所述目标数据集内包含非结构化数据,则对所述目标数据集内的非结构化数据进行字段切分处理,并确定所述目标数据集内每个字段的格式;
针对所述目标数据集内的每个字段,若该字段的格式与格式字典中预设字段的格式的相似度高于预设阈值,则将所述格式字典中的预设字段的类型作为该字段的类型。
3.根据权利要求2所述的方法,其特征在于,所述基于所述敏感数据的第一筛选条件,对数据解析后的目标数据集中的数据进行筛选,得到第一类型敏感数据,包括:
确定所述第一筛选条件中的敏感数据类型,并确定类型与所述第一筛选条件中的敏感数据类型一致的字段为第一类型敏感数据。
4.根据权利要求3所述的方法,其特征在于,所述方法还包括:
利用训练好的敏感数据识别模型,对所述目标数据集内未被确定为第一类型敏感数据的字段进行筛选,得到满足所述敏感数据识别模型中预设的第二筛选条件的第二类型敏感数据。
5.根据权利要求4所述的方法,其特征在于,所述方法还包括:
对所述第一类型敏感数据和所述第二类型敏感数据的数量及数据信息进行统计,并将统计结果展示给用户,以使用户根据统计结果,对所述第一类型敏感数据和所述第二类型敏感数据进行处理;
其中,所述数据信息包括以下至少一种:
该敏感数据所属的文件的储存路径、该敏感数据在其所属文件中的位置、该敏感数据的数据类型、该敏感数据的字段格式与预设的字段格式的相似度。
6.一种基于大数据的敏感数据确定装置,其特征在于,所述装置包括:
获取模块,用于获取敏感数据的第一筛选条件;
解析模块,用于基于目标数据集内数据的类型,确定目标数据集的数据解析方式,并利用所述数据解析方式对所述目标数据集进行数据解析;
第一筛选模块,用于基于所述敏感数据的第一筛选条件,对数据解析后的目标数据集中的数据进行筛选,得到第一类型敏感数据。
7.根据权利要求6所述的装置,其特征在于,所述解析模块在基于目标数据集内数据的类型,确定目标数据集的数据解析方式,并利用所述数据解析方式对所述目标数据集进行数据解析时,具体用于:
若所述目标数据集内包含非结构化数据,则对所述目标数据集内的非结构化数据进行字段切分处理,并确定所述目标数据集内每个字段的格式;
针对所述目标数据集内的每个字段,若该字段的格式与格式字典中预设字段的格式的相似度高于预设阈值,则将所述格式字典中的预设字段的类型作为该字段的类型。
8.根据权利要求7所述的装置,其特征在于,所述第一筛选模块在基于所述敏感数据的第一筛选条件,对数据解析后的目标数据集中的数据进行筛选,得到第一类型敏感数据时,具体用于:
确定所述第一筛选条件中的敏感数据类型,并确定类型与所述第一筛选条件中的敏感数据类型一致的字段为第一类型敏感数据。
9.一种电子设备,其特征在于,包括:处理器、存储介质和总线,所述存储介质存储有所述处理器可执行的机器可读指令,当电子设备运行时,所述处理器与所述存储介质之间通过总线通信,所述处理器执行所述机器可读指令,以执行如权利要求1至5任一所述的基于大数据的敏感数据确定方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器运行时执行如权利要求1至5任一所述的基于大数据的敏感数据确定方法的步骤。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于恩亿科(北京)数据科技有限公司,未经恩亿科(北京)数据科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910774931.X/1.html,转载请声明来源钻瓜专利网。