[发明专利]一种融合社会标签相似度基于K近邻的协同过滤推荐系统有效
申请号: | 201210473025.4 | 申请日: | 2012-11-20 |
公开(公告)号: | CN103092911A | 公开(公告)日: | 2013-05-08 |
发明(设计)人: | 欧阳元新;顾毅;李日藩;熊璋 | 申请(专利权)人: | 北京航空航天大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F17/27 |
代理公司: | 北京科迪生专利代理有限责任公司 11251 | 代理人: | 杨学明;顾炜 |
地址: | 100191*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种融合社会标签相似度基于K近邻的协同过滤推荐系统,系统包括对社会标签语义相似度的计算方法分析模块、两种社会标签相似度与评分相似度的融合模块和基于K近邻构建协同过滤推荐模块三个部分,分析模块根据项目之间的不同数据源来源,提出了除评分相似度以外的社会标签语义相似度;对社会标签语义相似度的计算,主要包括标签对之间的相似度计算和标签集合之前的相似度计算;融合模块中两种社会标签相似度与评分相似度的融合方式包括按比例融合和以权重的方式融合两种;最后将融合后的相似度度量基于K近邻来构建协同过滤推荐系统。本发明将社会标签数据信息和用户-项目评分数据信息进行融合,从而达到提高推荐精度的目的。 | ||
搜索关键词: | 一种 融合 社会 标签 相似 基于 近邻 协同 过滤 推荐 系统 | ||
【主权项】:
1.一种融合社会标签相似度基于K近邻的协同过滤推荐系统,其特征在于:具体包括:(一)社会标签语义相似度的计算方法分析模块该分析模块首先在给定的包含|I|个项目的社会标签数据上对标签信息进行分析,过滤,去重预处理,其中,I是项目集合,|I|代表项目集合I的个数;然后计算标签与标签之间的语义相似度,最后定义了标签集合之间的语义相似度的计算方法,作为两个项目之间的社会标签相似度;标签与标签的相似度使用WordNet中的Wu and Palmers算法定义:Sim WP ( c 1 , c 2 ) = 2 × depth ( lso ( c 1 , c 2 ) ) len ( c 1 , c 2 ) + 2 × depth ( lso ( c 1 , c 2 ) ) - - - ( 1 ) ]]> 其中lso表示两个词语的公共父节点,depth表示一个词语在语义树中的深度,len是两个词语之间的路径长度,Wu and Palmers算法的含义是,两个词语的语义相似度是由两个词语之间的路径长度和其公共父节点的深度所共同决定的,因为一个词语可能有多个含义,处于多个语义网,将使用两个标签不同含义之间,语义相似度最大值作为它们的相似度;社会标签集合之间的语义相似度计算,对于给定的两个社会标签集合A,B,tagi和tagj表示集合中的两个标签,令simi,j表示标签之间的相似度;使用一个矩阵来存储A和B中的标签两两之间的相似度,这样就将社会标签集合之间的语义相似度的计算问题转化为了寻找最大二分匹配的问题,问题的目标就是找到标签之间最大可能匹配的数目;FSim A , B = N A - matching - pairs + N B - matching - pairs | A | + | B | - - - ( 2 ) ]]> 式(2)中,两个标签集合AB的语义相似度用FSimAB来表示,定义标签相似度大于设置的阈值时,为两个标签之间匹配,NA-matching-pairs和NB-matching-pairs分别表示从两个集合的优先考虑角度来寻找的匹配标签数目;(二)两种社会标签相似度和评分相似度的融合模块该融合模块使用社会标签相似度作为相似度支持的两种融合策略:一种是按比例融合的方法,其按比例融合的方法将两种相似度按比例融合在一起,社会标签相似度和评分相似度分别贡献自己的相似度的比例值;另外一种是以权重融合的方法,其以权重融合的方法考虑到评分相似度和社会标签相似度的特殊性,将使用社会标签相似度来作为权重修正评分相似度:越高的社会标签相似度表示其评分相似度的置信度越高;具体的:(1)按比例融合的方法这种方法将两种相似度按比例融合在一起,社会标签相似度和评分相似度分别贡献自己的相似度的比例值;给定两个项目i和j,RS表示它们的评分相似度,FS是社会标签相似度,那么i和j最终的相似度计算方法是:Simi,j=λ·FSi,j+(1-λ)·RSi,j (3)其中的λ是比例系数,从0到1之间取值,根据实际系统的需要和运行性能选取合适的值;(2)以权重融合的方法这种策略考虑到评分相似度和社会标签相似度的特殊性,将使用社会标签相似度来作为权重修正评分相似度:越高的社会标签相似度表示其评分相似度的置信度越高;Sim i , j = RS i , j · FS i , j - min ( FS ) max ( FS ) - min ( FS ) - - - ( 4 ) ]]> 其中max(FS)和min(FS)代表训练数据中所有项目的最大最小社会标签相似度的值;通过这种方法将评分相似度转化成一个新值,在K近邻的构建时,最近邻居的选择将会倾向于评分相似度和社会标签相似度都高的项目,而不是仅仅由一种相似度所决定;(三)使用融合后的相似度信息基于K近邻构建协同过滤推荐模块该推荐模块通过在基于不同数据源的模型上计算项目之间的各种相似度,社会标签相似度项目相似度以支持度的方式集成到K近邻模型中去,来改善模型的性能,通过两种融合社会标签语义相似度和评分相似度的方法,包括以百分比融合和以权重融合,构建出基于K近邻的协同过滤推荐系统可以更好地通过已知数据预测出未知数据的评分信息,具有更高的推荐精度;项目之间的相似度采用Pearson相关相似度来计算,Sim i , j = Σ u ∈ R i ∩ Rj ( r u , i - r i ‾ ) · ( r u , j - r j ‾ ) Σ u ∈ R i ∩ R j ( r u , i - r i ‾ ) 2 · Σ u ∈ R i ∩ R j ( r u , j - r j ‾ ) 2 - - - ( 5 ) ]]> 其中的是项目i的平均评分,用户用u表示,i,j表示不同的项目,通过计算项目之间的相似度,系统将存储每个项目的K个最大相似度的近邻项目,对于未知的用户-项目评分将通过已知的评分数据和该项目的K近邻项目来估计得到:r ^ u , i = Σ j ∈ KNN ( i ) ∩ R ( u ) Sim i , j · r u , j Σ j ∈ KNN ( i ) ∩ R ( u ) Sim i , j - - - ( 6 ) ]]> KNN(i)表示项目i的K个最大相似度的近邻项目集合,R(u)是用户u的已知评分,Simi,j是通过上面公式计算出来的项目i和j之间的相似度和社会标签相似度融合得到,估计未知评分时,系统通过移除用户或者项目的平均评分来修正公式,这样将会大大增加推荐系统的精度,面向项目的K近邻公式加上平均评分修正之后变成:r ^ u , i = r i ‾ + Σ j ∈ KNN ( i ) ∩ R ( u ) Sim i , j · ( r u , j - r ‾ j ) Σ j ∈ KNN ( i ) ∩ R ( u ) Sim i , j - - - ( 7 ) ]]> 通过上面的公式,推荐系统会将预测评分最高的项目推荐给用户。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京航空航天大学,未经北京航空航天大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201210473025.4/,转载请声明来源钻瓜专利网。
- 上一篇:耐磨升降叉式供给装置
- 下一篇:一种埋入式垃圾处理系统