[发明专利]一种敏感数据检测方法及装置在审
申请号: | 202010767486.7 | 申请日: | 2020-08-03 |
公开(公告)号: | CN111914130A | 公开(公告)日: | 2020-11-10 |
发明(设计)人: | 赵正邦 | 申请(专利权)人: | 支付宝(杭州)信息技术有限公司 |
主分类号: | G06F16/903 | 分类号: | G06F16/903;G06F16/901;G06F21/62 |
代理公司: | 北京博思佳知识产权代理有限公司 11415 | 代理人: | 周嗣勇 |
地址: | 310000 浙江省杭州市*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 敏感数据 检测 方法 装置 | ||
1.一种敏感数据检测方法,用于对源数据的数据表中任一列进行敏感检测,所述源数据包括至少一张数据表;预先配置检测执行条件与对应的待检测列确定策略;所述方法包括:
确定源数据满足任一检测执行条件,所述检测执行条件至少包括:新增数据表、任一数据表新增列、或者任一数据表中任一列的名称发生变化;
根据所满足的检测执行条件对应的待检测列确定策略,确定所述源数据的数据表中的待检测列,并针对任一待检测列进行采样;
针对该待检测列的采样结果,基于任一敏感数据检测算法进行检测,并将检测结果确定为该待检测列的检测结果。
2.根据权利要求1所述的方法,所述检测执行条件还包括:更新任一敏感数据检测算法的版本;
对应于该检测执行条件的待检测列确定策略包括:确定任一数据表中使用旧版本的敏感数据检测算法进行检测的列为待检测列。
3.根据权利要求1所述的方法,所述检测执行条件还包括:当前时间点与上次检测的时间点之间的时长大于预设时长、或者当前时间点与预设的、周期性执行检测的时间点相同。
4.根据权利要求1所述的方法,所述敏感数据检测算法包括数据内容识别算法;所述针对该待检测列的采样结果,基于任一敏感数据检测算法进行检测,包括:
利用数据内容识别算法、针对该待检测列的采样结果中的每个数据进行数据内容识别,根据识别结果确定该数据是否为敏感数据;
根据该待检测列采样结果中敏感数据的占比,确定该待检测列采样结果的检测结果。
5.根据权利要求1所述的方法,所述针对任一待检测列进行采样,包括:
针对任一待检测列,如果预存的敏感数据名称集合中存在该待检测列的名称,则确定该待检测列的检测结果;如果预存的敏感数据名称集合中不存在该待检测列的名称,则针对该待检测列进行采样。
6.根据权利要求1所述的方法,所述针对任一待检测列进行采样,包括:
针对任一待检测列,先进行固定采样数量或固定采样占比的随机采样,再针对采样结果中的数据进行识别;如果识别结果为该采样结果中每个数据具有不同的内容含义,则重新针对该待检测列进行采样。
7.一种敏感数据检测装置,用于对源数据的数据表中任一列进行敏感检测,所述源数据包括至少一张数据表;预先配置检测执行条件与对应的待检测列确定策略;所述装置包括:
确定单元:确定源数据满足任一检测执行条件,所述检测执行条件至少包括:新增数据表、任一数据表新增列、或者任一数据表中任一列的名称发生变化;
采样单元:根据所满足的检测执行条件对应的待检测列确定策略,确定所述源数据的数据表中的待检测列,并针对任一待检测列进行采样;
检测单元:针对该待检测列的采样结果,基于任一敏感数据检测算法进行检测,并将检测结果确定为该待检测列的检测结果。
8.根据权利要求7所述的装置,所述检测执行条件还包括:更新任一敏感数据检测算法的版本;
对应于该检测执行条件的待检测列确定策略包括:确定任一数据表中使用旧版本的敏感数据检测算法进行检测的列为待检测列。
9.根据权利要求7所述的装置,所述检测执行条件还包括:当前时间点与上次检测的时间点之间的时长大于预设时长、或者当前时间点与预设的、周期性执行检测的时间点相同。
10.根据权利要求7所述的装置,所述敏感数据检测算法包括数据内容识别算法;所述检测单元,包括:
识别子单元:利用数据内容识别算法、针对该待检测列的采样结果中的每个数据进行数据内容识别,根据识别结果确定该数据是否为敏感数据;
确定子单元:根据该待检测列采样结果中敏感数据的占比,确定该待检测列采样结果的检测结果。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于支付宝(杭州)信息技术有限公司,未经支付宝(杭州)信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010767486.7/1.html,转载请声明来源钻瓜专利网。