[发明专利]一种融合属性和语义的概率矩阵分解冷启动推荐方法有效
申请号: | 201910914274.4 | 申请日: | 2019-09-25 |
公开(公告)号: | CN110851700B | 公开(公告)日: | 2022-04-05 |
发明(设计)人: | 徐俊;张政;杜宣萱;陶林康;张元鸣 | 申请(专利权)人: | 浙江工业大学 |
主分类号: | G06F16/9535 | 分类号: | G06F16/9535;G06F17/18 |
代理公司: | 杭州斯可睿专利事务所有限公司 33241 | 代理人: | 王利强 |
地址: | 310014 浙江省*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 融合 属性 语义 概率 矩阵 分解 冷启动 推荐 方法 | ||
1.一种融合属性和语义的概率矩阵分解冷启动推荐方法,其特征在于,所述方法包括以下步骤:
步骤1.收集大量用户和项目数据,数据包括用户属性信息、项目属性信息、用户对项目的评分信息和项目内容文本信息,以此为基础构建数据集;
步骤2.对项目内容文本信息进行分词、去除停用词预处理,然后对深度学习词向量模型进行训练获得词向量模型;
步骤3.将项目文本中的词通过词向量模型转换为向量,并利用词向量的加法运算法则结合TF-IDF方法获得n个关键词向量及权重{vj1:wj1,vj2:wj2,...,vjm:wjm,...,vjn:wjn},其中vjm表示为项目j的第m个关键词的词向量,wjm表示为项目j的第m个关键词向量的TF-TDF权重,将词向量累加平均获得项目内容文本向量
表示项目j的内容文本向量,n为项目内容文本中提取的关键词总数;
步骤4.构建线性回归模型预测潜在特征,将用户属性集fu看作输入值,用户的属性集包括性别、年龄和职业,用户潜在特征向量看作输出值,用户潜在特征的线性预测方程表达为:
其中,为用户i的预测潜在特征向量,表示为用户i的属性信息,Wu表示为用户属性的权重矩阵;
相同的,将项目属性集fV看作输入值,项目潜在特征向量看作输出值,项目潜在特征的线性预测方程表达为:
其中,为项目j的预测潜在特征向量,表示为项目j的属性信息,Wv表示为项目属性的权重矩阵;
对于项目语义潜在特征,将项目j的内容文本向量看作线性预测的输入值,项目j的语义潜在特征向量看作输出值,项目语义潜在特征的线性预测方程表达为:
其中,为项目j的预测语义潜在特征向量,表示为项目j的文本向量,Wq表示为项目内容文本向量的权重矩阵;
步骤5.将预测的潜在特征作为概率矩阵分解的先验概率对评分矩阵进行分解,和分别作为Ui、Vj和Qj的条件概率,转化公式为:
其中,Ui、Vj和Qj表示用户潜在特征、项目潜在特征和项目语义潜在特征,εui、εvj和εqj是高斯噪声:
假设权重参数集Wu、Wv和Wq中每个参数和都服从均值为零的高斯分布:
整个线性回归预测模型的条件概率为:
融合项目内容文本语义对用户评分的影响,整个评分矩阵R的条件概率分布重新定义为:
其中ω是调节参数,用来调控项目语义对用户评分的影响,是指数函数,如果用户i对项目j有过评分,那么它的值为1,否则为0,rij是实际评分,经过贝叶斯推断,联合后的后验对数概率满足下式:
为了方便计算,进一步处理得到最终的损失函数:
其中,||·||F是表示Frobenius范数;
步骤6.使用随机梯度下降法求解损失函数的局部最优解,整个模型最重要的模型参数分别为:用户潜在特征U,项目潜在特征V,项目语义潜在特征Q,线性预测模型中的模型参数Wu、Wv、Wq,参数求解步骤如下:
6.1)输入评分矩阵R,用户的属性信息fu,项目的属性信息fv和项目内容文本向量fq;
6.2)初始化参数Ui,Vj,Qj,Wu,Wv,Wq,α,ω;
6.3)当L不满足收敛时操作如下:
6.4)输出权重矩阵Wu,Wv,Wq和潜在特征矩阵Ui,Vj,Qj;
其中α为学习率,eij是预测评分与实际评分之间的误差;
步骤7.预测评分,选取评分最高的前n个项目作为推荐集,评分预测公式如下:
其中,表示为用户i对项目j的预测评分,对所有项目进行评分预测,然后选取评分最高的前n个作为用户i的推荐集Top-n。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江工业大学,未经浙江工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910914274.4/1.html,转载请声明来源钻瓜专利网。