[发明专利]基于矩阵补全技术的敏感数据补全方法在审
申请号: | 202011438587.6 | 申请日: | 2020-12-11 |
公开(公告)号: | CN112560087A | 公开(公告)日: | 2021-03-26 |
发明(设计)人: | 潘志松;张磊;刘鑫;黎维;邹军华;陶蔚;潘雨;段晔鑫;饶瑞 | 申请(专利权)人: | 中国人民解放军陆军工程大学 |
主分类号: | G06F21/62 | 分类号: | G06F21/62;G06F17/16 |
代理公司: | 南京纵横知识产权代理有限公司 32224 | 代理人: | 董建林 |
地址: | 210007 江*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 矩阵 技术 敏感数据 方法 | ||
1.基于矩阵补全技术的敏感数据补全方法,其特征在于,包括:
获得敏感数据缺失的文本数据;
对缺失敏感数据的数据提取文本特征,假设提取的文本特征中存在矩阵;
若矩阵是完整的,即可对矩阵进行分解;
若矩阵中含有敏感数据的缺失值,随机初始化分解的矩阵,与含有缺失值的矩阵计算损失误差,当损失误差最小时,采用近似的梯度下降法来求解,以对矩阵中缺失的敏感数据进行补全。
2.根据权利要求1所述的基于矩阵补全技术的敏感数据补全方法,其特征在于,若矩阵是完整的,即可对矩阵进行分解的方法包括:
如果存在一个矩阵X不含缺失的敏感数据,将矩阵X分解为两个矩阵U(大小m×k)、V(大小m×k),其中k<min{m,n},则
X=UVT
其中,m为矩阵U的行数;k为矩阵U的列数;n为矩阵V的行数;k为矩阵V的列数;VT为矩阵V的转置矩阵;k<min{m,n},rank(U)≤k、rank(V)≤k;rank(U)为矩阵U的秩;rank(V)为矩阵V的秩。
3.根据权利要求2所述的基于矩阵补全技术的敏感数据补全方法,其特征在于,若矩阵中含有敏感数据的缺失值,随机初始化分解的矩阵,与含有缺失值的矩阵计算损失误差,当损失误差最小时,采用近似的梯度下降法来求解,以对矩阵中缺失的敏感数据进行补全的方法包括:
令
损失函数J为
其中,i,j分别表示矩阵X的行和列;xij≠nan;表示含敏感缺失值的原矩阵X和还原后的近似矩阵之间误差的平方;
随机初始化矩阵U,V,损失函数J可以得到一个误差,基于该误差计算梯度,通过以下梯度下降的公式更新矩阵U,V:
则它的梯度为:
其梯度下降更新公式为:
其中,α为一个超参数,可以通过实验来确认其较优值;xij是矩阵X的第i行和第j列的数;uil是矩阵U的第i行和第l列的数;vjl是矩阵V的第j行和第l列的数;eij则为损失函数J中的一个误差值;
由上式可知,只要计算出uil,vjl,可得到其相应的损失函数,然后通过最小化损失函数来对矩阵中缺失的数据进行补全。
4.根据权利要求3所述的基于矩阵补全技术的敏感数据补全方法,其特征在于,加入正则项,此时损失函数J如下所示:
则上述梯度为:
根据上式,则矩阵U和V梯度下降更新公式为:
其中,α,β为超参数,eij为损失函数中的一个误差,uil是矩阵U的第i行和第l列的数,vjl是矩阵V的第j行和第l列的数;
计算出uil,vjl,即可得到其相应的损失函数,通过最小化损失函数来对矩阵中缺失的数据进行补全。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国人民解放军陆军工程大学,未经中国人民解放军陆军工程大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011438587.6/1.html,转载请声明来源钻瓜专利网。