[发明专利]基于随机锚点对选择的局部模型加权融合Top-N电影推荐方法有效
申请号: | 201810471640.9 | 申请日: | 2018-05-17 |
公开(公告)号: | CN108763362B | 公开(公告)日: | 2020-10-09 |
发明(设计)人: | 汤颖;孙康高 | 申请(专利权)人: | 浙江工业大学 |
主分类号: | G06F16/783 | 分类号: | G06F16/783;G06F16/735;G06F16/75 |
代理公司: | 杭州天正专利事务所有限公司 33201 | 代理人: | 王兵;黄美娟 |
地址: | 310014 浙*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 随机 选择 局部 模型 加权 融合 top 电影 推荐 方法 | ||
基于随机锚点对选择的局部模型加权融合Top‑N电影推荐方法,利用电影文本数据通过LDA主题模型和GBDT梯度提升决策树得到用户和电影在语义层次的特征向量,然后基于该特征向量分别计算用户和电影的高斯核相似度,接着在原始数据集中随机选择多个用户,电影锚点对,并结合用户和电影的高斯核相似度为每个锚点对重新构造局部训练矩阵,再利用SLIM稀疏线性模型作为基本推荐模型为每个局部训练矩阵训练得到对应的局部推荐模型,最后通过局部推荐模型之间的加权融合生成最终的融合推荐模型。该推荐方法在数据稀疏的场景下也保持了模型的稳定性,能有效解决传统单一推荐模型在数据稀疏场景的极易发生过拟合的问题。
技术领域
本发明涉及一种互联网上的电影推荐方法。
背景技术
随着互联网技术和社会经济文化产业的发展,诸如电子商品、数字新闻、在线电影、网络视频等越来越多的数字信息出现在互联网中,用户与网络交互产生的隐式和显式反馈数据也呈现指数式暴涨,用户想从海量数据中寻找和发现自己感兴趣的信息变得非常困难。推荐系统可以根据用户的历史行为信息,准确预测用户喜好,帮助用户在海量数据中快速找到他们感兴趣的信息,极大提升信息传播的效率。
推荐算法可分为基于内容的推荐以及协同过滤推荐。现代化的推荐系统主要有两个任务,一个是评分预测,另一个是在现实商业场景中应用最多的Top-N推荐。Top-N推荐算法通过生成一个经过排名且大小为N的物品列表并把该列表推荐给用户,让用户选择自己感兴趣的物品。Top-N推荐模型主要分为两种类型,分别是基于邻域的协同过滤和基于模型的协同过滤。前者又可细分为基于用户的邻域模型(UserKNN)和基于物品的邻域模型(ItemKNN),后者则以隐因子模型为代表。
推荐系统需要根据用户历史的行为和兴趣来预测用户未来的行为和兴趣,当推荐场景没有给推荐系统提供充足的历史行为数据时,模型就无法准确预测用户未来的行为和兴趣,因为此时一般的推荐算法模型都会产生过拟合现象,这就是推荐系统的冷启动问题。冷启动问题一般可分为用户冷启动、物品冷启动和系统冷启动。用户冷启动主要解决新用户的个性化推荐问题,物品冷启动主要解决如何把新物品推荐给可能对它感兴趣的用户的问题,系统冷启动解决怎样为一个新开发的网站设计推荐系统。所以,如何解决冷启动问题是所有推荐系统设计者均要面临的问题。电影推荐系统一般都会遇到用户冷启动问题,即当系统中存在很多评分行为很少的新用户或不活跃用户的时候,整个系统的交互式反馈数据就会很稀疏,而推荐系统是高度依赖用户行为的,这时训练出来的推荐模型很容易产生过拟合现象,导致模型的稳定性降低,整个系统中新用户的比例越高,系统的整体表现就会越差。
发明内容
为了解决现有技术的单一模型推荐算法在数据稀疏场景下发生过拟合的问题,本发明借鉴集成学习通过训练多个弱分类器融合得到强分类器的思想,提供一种基于随机锚点对选择的局部模型加权融合Top-N电影推荐方法。
本发明利用电影文本数据通过LDA主题模型和GBDT梯度提升决策树得到用户和电影在语义层次的特征向量,然后基于该特征向量分别计算用户和电影的高斯核相似度,接着在原始数据集中随机选择多个用户,电影锚点对,并结合用户和电影的高斯核相似度为每个锚点对重新构造局部训练矩阵,再利用SLIM稀疏线性模型作为基本推荐模型为每个局部训练矩阵训练得到对应的局部推荐模型,最后通过局部推荐模型之间的加权融合生成最终的融合推荐模型。该推荐方法在数据稀疏的场景下也保持了模型的稳定性,能有效解决传统单一推荐模型在数据稀疏场景的极易发生过拟合的问题。
基于随机锚点对选择的局部模型加权融合Top-N电影推荐方法,总体流程如图1所示,具体包括如下步骤:
步骤1:数据预处理阶段。对一些不活跃用户以及流行度很小的电影进行数据清洗;构造用户电影标签文档;把显式的评分信息转换成隐式反馈信息,构造用户-电影隐式反馈矩阵A;
1.1对原始数据集进行数据清洗工作,剔除观影数小于20部电影的用户,同时剔除被评分次数小于20次的电影,得到新的训练数据集;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江工业大学,未经浙江工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810471640.9/2.html,转载请声明来源钻瓜专利网。