[发明专利]一种带有差分隐私的生成式对抗网络推荐方法有效

专利信息
申请号: 202110086346.8 申请日: 2021-01-22
公开(公告)号: CN112883070B 公开(公告)日: 2022-05-10
发明(设计)人: 董晓梅;王蕊;邹欣开 申请(专利权)人: 东北大学
主分类号: G06F16/2457 分类号: G06F16/2457;G06F21/62;G06N3/04;G06N3/08
代理公司: 沈阳东大知识产权代理有限公司 21109 代理人: 梁焱
地址: 110819 辽宁*** 国省代码: 辽宁;21
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 带有 隐私 生成 对抗 网络 推荐 方法
【权利要求书】:

1.一种带有差分隐私的生成式对抗网络推荐方法,其特征在于:包括以下步骤:

步骤1:对电影数据集进行预处理,引入矢量对抗方案来进行类别型和文本型数据的处理;

步骤1.1:对数据集中的各字段进行归纳和分类,去掉无用的字段;

步骤1.2:对类别型字段和文本型字段预处理;

对于类别型字段的处理方式为:首先将类别型字段中的类别转成字符串到数字的字典,然后再将每个项目对应的类别型字段转成数字列表;

对于文本型字段的处理方式为:首先创建文本到数字的字典,然后将Title字段中的描述转成数字的列表;Title字段中的时间点也需要去掉;

文本型字段和类别型字段需要将长度统一,空白部分用‘PAD’对应的数字填充;

步骤1.3:电影数据集中的其它字段采用先验知识去进行归纳缩减,最后将预处理后的数据集合并为一张表;

步骤2:对经过预处理后的数据进行差分隐私加噪以及引入时刻计数法变量追踪加噪结果;

定义(ε,x,λ)~差分隐私:随机算法A满足(ε,x,λ)~差分隐私,对于所有输入数据集O1和O2最多有一个用户的一个属性值有所不同,对于所有可能的输出最终得出:

Pr[A(O1)∈O]≤exp(ε)·Pr[A(O2)∈O]+x (1)

其中参数ε为隐私保护预算,Pr[·]为事件发生的概率,O为与数据集O1、O2相近的数据集,x、λ为差分隐私参数,x>0,λ>0;

引入高斯噪声机制,定义如下:

f(O)≈f(O)+N(0,Δf22) (2)

其中,Δf为全局灵敏度,由任意函数f确定,即Δf=|f(O1)-f(O2)|对于f:O→R;N(0,Δf22)是均值为0、标准偏差为Δfσ的高斯分布;噪声大小由隐私保护预算参数和全局灵敏度控制;

根据(ε,x,λ)~差分隐私的定义,对经过预处理后的数据添加差分隐私噪声,对数据集中数据进行保护;

在加噪过程中,随着迭代结果对隐私变量进行优化,可能会出现优化结果先增加后降低的趋势,根据这一现象引入时刻变量,计算每一时刻的加噪结果,以求得最优的加噪结果;

步骤3:训练推荐模型进行高低阶特征训练,推荐模型分为相关矩阵分解推荐模型和生成式对抗网络推荐模型两部分;

步骤3.1:相关矩阵分解推荐模型CMF,将用户矩阵U和评分矩阵V映射到一个新的语义空间;除了在评级矩阵上实现最佳拟合之外,矩阵U或V中的一个分量也与另一个矩阵V或U中的每个分量紧密相关,采用相关矩阵分解获取推荐列表;

步骤3.1.1:为搭建相关矩阵分解推荐模型,将典型相关分析方法CCA作为相关矩阵分解推荐模型的组成部分;

相关矩阵分解推荐模型旨在将U和V放置在两个不同尺寸的不同潜在空间中,随后引入一个新的潜在相关因子y来预先耦合U和V,使得它们的关联最大化;y位于新的语义空间中,捕获了U和V之间的语义关联;观察第i个用户和第j个项目之间的交互Rij在新的语义空间中测量,并且表示为变换的U和V之间的距离;为了更好地将缺失值作为负面数据,引入一个权重变量cij,cij表示在观察用户i和项目j之间的交互Rij时的不同置信水平,并且可观察值总是拥有比丢失的值更高的权重;

令K为用户矩阵U的维度,T为评分矩阵V的维度,i、j分别代表用户向量和项目向量;令R∈RP×Q表示用户-项目交互矩阵,其中P和Q分别是用户数和项目数;相关矩阵分解推荐模型生成步骤如下:

步骤3.1.2:定义L维度的高斯相关因子y~W(0,1L),其中L是CCA中潜在相关因子y的维数,W为高斯函数;

步骤3.1.3:对于每一个用户矢量i∈{1,...,P},定义用户的潜在向量如下:

Ui~W(Tuy+μuu);Tu∈RK×L,Ψu≥0

其中,Ui代表第i个用户的潜在向量;Tu是维度为K×L的矩阵;μu、Ψu为相关因子辅助参数;

步骤3.1.4:对于每一个项目矢量j∈{1,...,Q},定义项目的潜在向量如下:

Vj~W(Tvy+μv,Ψv);Tv∈RT×Lv≥0

其中,Vj代表第j个项目的潜在向量;Tv是维度为T×L的矩阵;μv、Ψv为相关因子辅助参数;

步骤3.1.5:对于R中的每一条记录数据(i,j),定义评分向量如下:

其中,rij代表评分向量;权重变量定义为cij=1+αrij,α为常数;

步骤3.1.6:按下式计算在给定初始模型参数Θ和评分的情况下从CMF模型产生的概率p(R|Θ);

步骤3.1.7:训练相关矩阵分解推荐模型寻找最佳模型参数模型参数Θ在给定观测值的情况下能最大程度地提高后验概率,定义如下:

步骤3.2:搭建训练生成式对抗网络模型GAN,用于推荐列表的生成;

步骤3.2.1:定义判别器D和生成器G的目标函数;

D的目标函数表示为JD,如下所示:

G的目标函数表示JG,如下所示:

其中,代表满足数据data的分布的数据期望,x-Pdata为x服从数据data的数据分布,D(·|·)为均方差,代表满足数据Φ的数据分布的数据期望,为服从数据Φ的数据分布,代表生成的数据,x代表真实数据,ru代表真实用户数据的评分;c为真实数据辅助向量;cu为用户购买数据辅助向量;eu为用户数据辅助向量,由0或1组成,用于筛选生成器生成但用户却未真实购买的数据;为生成的用户评分,u为某个用户;

步骤3.2.2:将G和D均实现为多层神经网络;

通过多层神经网络实现G和D,分别由φ和θ进行参数化;G是一个LG层的神经网络,LG≥2,其神经网络输入内容为{z,cu},输出为n维的购买向量即生成的用户评分,其中{}表示内部两个向量的串联,z为随机噪声向量;D是一个LD层的神经网络,LD≥2,其神经网络输入是或{ru,cu},并输出一个单一的标量值,表示输入来自基本事实的概率,而不是G;随后采用随机梯度下降与小批量反向传播来训练G和D;交替更新它们各自的参数φ和θ,在另一个参数保持不变时更新;

在对抗训练完成之后,在z和cu的基础上,G生成一个n维购买向量其中包含数据集中所有项目的预测偏好得分;随机选取中某个用户未购买项目的一部分评分;最后,预测得分最高的前10个项目将被选中并推荐给u;

步骤4、将CMF和GAN的推荐列表进行合并,合并规则为保留重复的推荐项目。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于东北大学,未经东北大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202110086346.8/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top