[发明专利]一种协同过滤算法冷启动问题的解决方法在审
申请号: | 201910287790.9 | 申请日: | 2019-04-11 |
公开(公告)号: | CN110083764A | 公开(公告)日: | 2019-08-02 |
发明(设计)人: | 邵煜;谢颖华 | 申请(专利权)人: | 东华大学 |
主分类号: | G06F16/9535 | 分类号: | G06F16/9535 |
代理公司: | 上海申汇专利代理有限公司 31001 | 代理人: | 翁若莹;柏子雵 |
地址: | 201600 上*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 协同过滤 冷启动 新用户 算法 新项目 用户信息 层次聚类算法 邻居用户 目标项目 内容信息 信息属性 传统的 凝聚式 相似度 归类 邻居 | ||
1.一种协同过滤算法冷启动问题的解决方法,其特征在于,包括一种融合用户信息模型的基于用户的协同过滤算法和一种采用层次聚类的基于项目的协同过滤算法,其中:
一种融合用户信息模型的基于用户的协同过滤算法包括以下步骤:
步骤101、获取数据集,数据集包括用户-项目评分数据集和用户信息属性集;
步骤102、根据历史评分数据集,判定数据集中所包含的新用户及老用户;对于新用户,随后根据用户信息属性数据集,利用Sigmoid函数计算得出针对新用户的基于用户信息模型的相似度;对于老用户,计算用户基于评分数据的相似度;
步骤103、根据步骤102所得的相似度,寻找目标用户的邻居集;
步骤104、根据步骤103得到的邻居集,计算目标用户的预测评分;
步骤105、由所得的预测评分,生成Top-N推荐列表,完成推荐;
一种采用层次聚类的基于项目的协同过滤算法包括以下步骤:
步骤201、获取数据集,数据集包括用户-项目评分数据集和项目内容信息集;
步骤202、根据历史评分数据集,判定数据集中所包含的新项目及老项目;对于新项目,根据项目内容信息集,计算项目内容的欧氏距离,采用凝聚式层次聚类找到目标项目的邻居集;对于老项目,计算项目基于评分数据的相似度,寻找邻居集;
步骤203、根据步骤202得到的邻居集,计算目标项目的预测评分;
步骤204、由所得的预测评分,生成Top-N推荐列表,完成推荐。
2.如权利要求1所述的一种协同过滤算法冷启动问题的解决方法,其特征在于,步骤102中,所述基于用户信息模型的相似度的计算过程包括以下步骤:
步骤1021、考量用户的k项属性信息attri,i=1,2,3,...,k,分别给不同的属性信息分配权重λi,计算用户u与用户v之间的特征差attr(u,v):
步骤1022、由步骤1021所得的特征差attr(u,v),计算用户u与用户v之间的基于用户信息模型的相似度simattr(u,v),如下式:
3.如权利要求1所述的一种协同过滤算法冷启动问题的解决方法,其特征在于,步骤202中,采用凝聚式层次聚类找到目标项目的邻居集的计算过程包括以下步骤:
步骤2021、若项目的内容信息为数值类信息,则进入下一步,若项目的内容信息为非数值类信息,则计算项目属性信息的补集元素个数,作为该维度上欧式距离的长度值;
步骤2022、设项目有n种内容信息,上一步计算得到的项目i对应的第k种内容信息记为ik,上一步计算得到的项目j对应的第k种内容信息记为jk,项目i与项目j之间的欧式距离定义为d(i,j),则有:
基于项目之间的欧式距离,建立欧式距离矩阵;
步骤2023、由步骤2022得到的欧式距离矩阵,初始定义每个项目为单独的一个簇,选择距离最近的两个簇合并为一个簇,利用组平均准则,选取其他簇与合并簇所有点之间距离的平均值作为下一步的邻近值,更新欧式距离矩阵;
步骤2024、重复步骤2023,继续迭代更新矩阵,直到类簇值为初始值的10%时,判定聚类结束,根据聚类结果得到项目的邻居集。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于东华大学,未经东华大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910287790.9/1.html,转载请声明来源钻瓜专利网。
- 上一篇:数据查询方法及装置
- 下一篇:理财信息推送方法、装置、计算机设备和存储介质