[发明专利]一种基于隐私保护的隐私数据处理方法、装置及设备有效
申请号: | 202110521370.X | 申请日: | 2021-05-13 |
公开(公告)号: | CN113221747B | 公开(公告)日: | 2022-04-29 |
发明(设计)人: | 曹佳炯;丁菁汀 | 申请(专利权)人: | 支付宝(杭州)信息技术有限公司 |
主分类号: | G06V40/10 | 分类号: | G06V40/10;G06V10/774;G06V10/762;G06V10/764;G06V10/94;G06K9/62;G06F21/62 |
代理公司: | 北京国昊天诚知识产权代理有限公司 11315 | 代理人: | 朱文杰 |
地址: | 310000 浙江省杭州市*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 隐私 保护 数据处理 方法 装置 设备 | ||
1.一种基于隐私保护的隐私数据处理方法,所述方法包括:
获取对包括用户隐私数据的目标数据进行脱敏处理后得到的脱敏后的目标数据;
对所述脱敏后的目标数据进行数据分布分析,得到所述脱敏后的目标数据对应的数据分布差异信息;
如果所述数据分布差异信息指示所述脱敏后的目标数据对应的数据分布差异概率大于预定阈值,则基于所述脱敏后的目标数据对隐私识别模型对应的主动学习模型进行模型训练,得到训练后的主动学习模型,所述主动学习模型用于对所述脱敏后的目标数据进行数据优化处理,以得到被所述隐私识别模型进行隐私数据识别处理的准确性高于预设准确性阈值的优化脱敏数据,所述隐私识别模型是基于包括用户隐私数据的第一样本数据进行模型训练得到,所述第一样本数据对应的数据分布差异概率小于所述预定阈值;
基于所述训练后的主动学习模型和预先获取的第二样本数据对所述隐私识别模型进行训练,以更新所述隐私识别模型,并基于更新后的隐私识别模型和所述训练后的主动学习模型进行隐私数据的识别处理,所述第二样本数据中包括数据分布差异概率大于所述预定阈值的样本数据。
2.根据权利要求1所述的方法,所述对所述脱敏后的目标数据进行数据分布分析,得到所述脱敏后的目标数据对应的数据分布差异信息,包括:
基于预设的时间间隔,从所述脱敏后的目标数据中分别抽取预设数量的脱敏后的目标数据,得到两个时间点的数据集合;
分别获取每个时间点的数据集合中包含的所述脱敏后的目标数据对应的用户隐私数据的识别分值;
基于每个时间点的数据集合中包含的所述脱敏后的目标数据对应的用户隐私数据的识别分值,确定每个时间点的数据集合对应的识别分值的分布特征;
基于每个时间点的数据集合对应的识别分值的分布特征,使用预先训练的分布分类模型,确定两个时间点的数据集合对应的数据分布差异信息,将两个时间点的数据集合对应的数据分布差异信息确定为所述脱敏后的目标数据对应的数据分布差异信息。
3.根据权利要求2所述的方法,所述基于每个时间点的数据集合对应的识别分值的分布特征,使用预先训练的分布分类模型,确定两个时间点的数据集合对应的数据分布差异信息,包括:
基于预设的聚类算法分别对所述两个时间点的数据集合进行聚类,得到每个时间点的数据集合对应的聚类中心特征;
将每个时间点的数据集合对应的识别分值的分布特征和所述每个时间点的数据集合对应的聚类中心特征输入到预先训练的分布分类模型中,得到两个时间点的数据集合对应的数据分布差异信息。
4.根据权利要求3所述的方法,所述聚类算法包括K-Means聚类算法。
5.根据权利要求2所述的方法,所述基于所述脱敏后的目标数据对所述隐私识别模型对应的主动学习模型进行模型训练,得到训练后的主动学习模型,包括:
基于每个时间点的数据集合中包含的所述脱敏后的目标数据对应的用户隐私数据的识别分值,生成每个时间点的数据集合中包含的所述脱敏后的目标数据对应的类别;
从所述两个时间点的数据集合中包含的所述脱敏后的目标数据中选取识别分值大于第一预设识别阈值的脱敏后的目标数据,并获取选取的脱敏后的目标数据对应的类别;
基于选取的脱敏后的目标数据和选取的脱敏后的目标数据对应的类别,以及Margin-Softmax损失函数,对所述隐私识别模型对应的主动学习模型进行模型训练,得到训练后的主动学习模型。
6.根据权利要求5所述的方法,所述方法还包括:
通过所述训练后的主动学习模型对两个时间点的数据集合中包含的所述脱敏后的目标数据进行脱敏处理,得到脱敏数据,并确定所述脱敏数据对应的用户隐私数据的识别分值;
从所述脱敏数据中选取识别分值大于第二预设识别阈值的脱敏数据,并基于所述隐私识别模型分别对选取的脱敏数据进行用户隐私数据的识别处理,基于得到的识别结果确定选取的脱敏数据对应的类别;
基于选取的脱敏数据、确定的选取的脱敏数据对应的类别和TripletLoss损失函数对所述主动学习模型进行调整,得到调整后的主动学习模型。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于支付宝(杭州)信息技术有限公司,未经支付宝(杭州)信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110521370.X/1.html,转载请声明来源钻瓜专利网。