[发明专利]一种基于标签和差分隐私保护的推荐方法在审
申请号: | 201910062956.7 | 申请日: | 2019-01-23 |
公开(公告)号: | CN109784092A | 公开(公告)日: | 2019-05-21 |
发明(设计)人: | 蒋宗礼;张秀英;董璇 | 申请(专利权)人: | 北京工业大学 |
主分类号: | G06F21/62 | 分类号: | G06F21/62;G06F16/9535 |
代理公司: | 北京思海天达知识产权代理有限公司 11203 | 代理人: | 刘萍 |
地址: | 100124 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 标签 隐私保护 模糊 聚类 噪声 数据可用性 常规聚类 聚类过程 欧式距离 用户隐私 准确度 兴趣度 准确率 向量 隐私 引入 | ||
1.基于标签和差分隐私保护的推荐方法,其特征在于:
包括标签相似性计算,标签进行差分隐私保护的模糊C均值聚类的过程,计算用户兴趣向量和用户相似度产生topN推荐单元,具体如下:
产生标签关联矩阵,计算标签相似性单元:利用资源标签矩阵计算标签共现矩阵,通过标签共现矩阵得到标签紧密度关联矩阵,通过关联矩阵计算标签相似性;
标签聚类差分隐私保护单元:用标签的相似性代替模糊C均值聚类的欧式距离,在聚类过程中加入符合Laplace分布的噪声,保护聚类中心点,产生具有差分隐私保护的聚类结果;
topN推荐单元:根据聚类的标签计算用户对标签的兴趣向量,根据用户的兴趣向量计算用户的相似性,得到k个相似的最近邻用户,对最近邻用户访问的资源进行筛选,对高分的N个资源进行topN推荐。
2.根据权利要求1所述的方法基于标签和差分隐私保护的推荐方法,
其特征在于:
计算标签相似性单元具体过程如下:
1)首先假设数据集包含m个资源的集合R={R1,R2,…,Rm}和n个标签的集合T={T1,T2,…,Tn},建立标签资源矩阵其中trn,m表示资源Rm被标签Tn标注的次数;
2)遍历资源标签矩阵M,当2个或者2个以上标签同时标注某一资源时符合标签共现规则,记录标签共现的频率得到标签共现矩阵其中矩阵的每一个元素,以tfn,1为例,表示标签Tn和标签T1共同标记资源的频率,也就是共现的次数;
3)遍历标签共现矩阵F,计算标签关联矩阵tfn,1越大表明标签Tn与标签T1之间的相关度就越高,tdn,1通过标签之间的紧密度公式得到,其中Fin(Tn)表示Tn的共现标签个数;
4)根据标签关联矩阵和余弦相似度计算方法计算标签相似度。
3.根据权利要求1所述的方法基于标签和差分隐私保护的推荐方法,
其特征在于,计算标签基于差分隐私保护的模糊c聚类的过程如下:
1)标签集合T由n个标签组成,同时把集合T分成c个主题,用0-1之间的随机函数初始化隶属矩阵,并且该矩阵满足归一化条件,并特将标签与聚类中心的欧式距离用标签之间的相似度来代替;并且在聚类中心点中加入了符合Laplace分布的噪声noise=Laplace(Δf/ε),其中Δf为敏感度参数,ε为差分隐私保护参数,ε=0.55;
2)聚类的结束取决于2个条件,一个是预先设定的阈值δ,他代表计算的价值函数在这个阈值范围内的误差可以接受,另一个是预先设定的聚类的迭代次数Niteration,达到两者之间的任一条件都终止该部分,具体判定规则为:价值函数小于预先设定的阈值或者达到预先设定的迭代次数得到最终的隶属矩阵,根据隶属矩阵得到聚类;价值函数大于阈值且未达到预先设定的迭代次数,重新计算添加Laplace噪声的聚类中心点和新的隶属矩阵,再次计算价值函数变化和阈值和迭代次数的关系,直到得到最终隶属矩阵;δ=10-5,迭代次数Niteration=8-12次。
4.根据权利要求1所述的方法基于标签和差分隐私保护的推荐方法,其特征在于,topN推荐单元具体过程如下:
1)经过聚类后得到c个隐私保护的标签主题,根据用户在每个主题中使用的标签的权重之和与用户标签总权重的比得出对主题的喜爱程度,得出具体对每个主题的兴趣强度,得到用户的兴趣向量;
2)采用皮尔逊相关系数法计算用户的相似性,得到预先设定的k个最近邻;
3)对最近邻访问的资源进行筛选,对高分的N个资源进行topN推荐。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京工业大学,未经北京工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910062956.7/1.html,转载请声明来源钻瓜专利网。