[发明专利]一种数据库敏感数据识别方法及系统有效
申请号: | 202010762510.8 | 申请日: | 2020-07-31 |
公开(公告)号: | CN111914294B | 公开(公告)日: | 2023-06-30 |
发明(设计)人: | 欧阳解文;魏茜;叶俊 | 申请(专利权)人: | 建信金融科技有限责任公司 |
主分类号: | G06F21/62 | 分类号: | G06F21/62;G06F16/906 |
代理公司: | 北京三友知识产权代理有限公司 11127 | 代理人: | 许曼;贾磊 |
地址: | 200120 上海市浦东新区*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 数据库 敏感数据 识别 方法 系统 | ||
1.一种数据库敏感数据识别方法,其特征在于,包括:
连接数据库以获取待识别数据;
对所述待识别数据进行特征化处理,得到反映所述待识别数据中字段内容信息量变化的特征化数据,其中,所述特征化数据至少包括:
所述待识别数据中各字段内容空置率nullProb、各字段内容原始信息量originalEntropy、各字段内容长度信息量lenEntropy、各字段最大信息量占比maxEntropyProp、各字段内容最大长度lmax、各字段内容最大保留长度keepLen;
根据所述待识别数据中各字段内容的特征化数据及数据特征识别规则,确定所述待识别数据中各字段内容敏感数据分类及脱敏范围;
其中,所述数据特征识别规则包括敏感数据分类与包含特征化数据范围的判别规则之间的对应关系及脱敏范围计算规则;
其中,根据所述待识别数据中各字段内容的特征化数据及数据特征识别规则,确定所述待识别数据中各字段内容敏感数据分类及脱敏范围,包括:
根据所述待识别数据中各字段内容空置率nullProb、各字段内容原始信息量originalEntropy、各字段内容长度信息量lenEntropy、各字段最大信息量占比maxEntropyProp从所述对应关系中查找符合的判别规则;
将查找出的判别规则对应的敏感数据分类作为所述待识别数据中字段内容敏感数据分类;
按所述脱敏范围计算规则,根据各字段内容最大保留长度keepLen确定开始脱敏位置,根据各字段内容最大长度lmax确定结束脱敏位置。
2.如权利要求1所述的方法,其特征在于,连接数据库以获取待识别数据,包括:
根据用户配置的数据库连接信息及数据量信息,连接数据库以获取待识别数据。
3.如权利要求1所述的方法,其特征在于,对所述待识别数据进行特征化处理,得到反映所述待识别数据中字段内容信息量变化的特征化数据,包括:
对所述待识别数据按字段进行循环处理,得到各字段内容空置率nullProb、各字段内容最大长度lmax、各字段内容原始信息量originalEntropy、各字段内容长度信息量lenEntropy;
根据各字段内容原始信息量originalEntropy,计算各字段最大信息量占比maxEntropyProp;
对所述待识别数据按字段内容截取长度进行循环处理,得到各字段内容最大保留长度keepLen。
4.如权利要求3所述的方法,其特征在于,对所述待识别数据按字段进行循环处理,得到各字段内容空置率nullProb,包括:统计所述待识别数据的各字段内容中数据项总数及数据项为空的个数;
利用各字段内容中数据项为空的个数除以数据项总数,得到各字段内容空置率nullProb。
5.如权利要求3所述的方法,其特征在于,对所述待识别数据按字段进行循环处理,得到各字段内容最大长度lmax,包括:
统计所述待识别数据的各字段内容中各数据项的字符串长度;
将各字段内容中最大字符串长度作为各字段内容最大长度lmax。
6.如权利要求3所述的方法,其特征在于,对所述待识别数据按字段进行循环处理,得到各字段内容长度信息量lenEntropy,包括:
将所述待识别数据的各字段内容输入至信息熵工具函数中,计算得到各字段内容长度信息量lenEntropy。
7.如权利要求3所述的方法,其特征在于,根据各字段内容原始信息量originalEntropy,计算各字段最大信息量占比maxEntropyProp,包括:
从所有字段内容原始信息量originalEntropy中选择最大原始信息量为theMaxEntropy;
将各字段内容原始信息量originalEntropy与最大原始信息量theMaxEntropy的比值,作为各字段最大信息量占比maxEntropyProp。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于建信金融科技有限责任公司,未经建信金融科技有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010762510.8/1.html,转载请声明来源钻瓜专利网。
- 上一篇:智能家电设备控制方法、装置、服务器及存储介质
- 下一篇:电动机