[发明专利]结合评论文本挖掘的个性化推荐算法有效
申请号: | 202010779129.2 | 申请日: | 2020-08-05 |
公开(公告)号: | CN111930926B | 公开(公告)日: | 2023-08-29 |
发明(设计)人: | 陆建波;刘春霞 | 申请(专利权)人: | 南宁师范大学 |
主分类号: | G06F16/335 | 分类号: | G06F16/335;G06F16/33;G06F40/289;G06F40/30;G06N3/0455;G06N3/045;G06N3/0442;G06N3/048;G06N3/08 |
代理公司: | 北京远大卓悦知识产权代理有限公司 11369 | 代理人: | 邓雪明 |
地址: | 530001 广西壮族*** | 国省代码: | 广西;45 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 结合 评论 文本 挖掘 个性化 推荐 算法 | ||
1.一种结合评论文本挖掘的个性化推荐算法,包括:
利用传统的隐语义模型获取用户特征Pu;
其中,将原始评分矩阵分解后获取用户特征,并用于算法后期的评分预测,原始的评分矩阵R分解为两个低秩矩阵相乘R=PQ;
其中P∈Rm×F,Q∈RF×n,
对于每个用户u,令Pu=(Pu1,Pu2,…,PuF)表示用户与隐因子的关联程度;
对于每个项目i,令Qi=(Qi1,Qi2,…,QiF)表示项目与因子的关联程度;
用户对项目的总体兴趣度定义为:
学习模型中的Pu,Qi,通过最小化损失函数来近似估计,具体表示为:
式中:λ是正则化项参数,用来防止过拟合;yu,i代表真实评分;
利用堆栈降噪自动编码器获取项目特征Qi;
其中,基于堆栈降噪自动编码器的项目特征的提取包括以下步骤:
步骤一、将每个商品的评论整合为一个文档,经过TF-IDE处理后,采用词袋模型表示为项目的内容向量,作为SDAE的输入数据;
步骤二、采用逐层贪心算法对DAE进行预训练,得到SDAE网络权重,预训练完成后,将DAE展开得到SDAE的网络结构;
步骤三、使用BP算法优化网络,采用梯度下降算法进行微调;
基于堆栈降噪自动编码器的项目特征的提取具体过程为:
对输出层nl的每一个神经元i,误差公式为:
对于隐藏层l=nl-1,nl-2,nl-3,...2,其损失表达为:
式中:f′(zi(l))=ai(l)(1-ai(l));i,j分别代表隐含层l的第i个节点和隐含层l+1的第j个节点,1<j≤Sl;
对损失函数求偏导:
式中R(W,b;x,y)为输入输出的均方误差函数;
参数更新:
式中:α为学习率,在本算法中使用4层DAE堆叠展开形成SDAE,每层的输出维度分别为1000、200、40和8,每层的降噪参数均为0.95,训练时的学习率为0.01
将用户特征Pu和项目特征Qi输入多层感知器来预测评分
其中,采用了多层感知器学习用户与项目的非线性关系,进行评分预测,具体为:将用户特征Pu与项目特征Qi连接,作为多层感知器的输入Xu,i,定义为:
xu,i=concatation(Pu,Qi);
对多层感知器网络进行逐层训练,则网络的输出表示为
式中:W、b、f分别表示权重矩阵、偏置、激活函数,选取了relu函数作为训练的激活函数,采用Adma算法进行优化,使用排名目标来学习算法的参数,根据贝叶斯个性化排序算法,目标函数表示为:
式中:λΔ是正则化参数以防止过度拟合,Ψ表示训练实例,通过最小化BPR损失,正确预测交互之间的相对顺序,而不是优化评分。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南宁师范大学,未经南宁师范大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010779129.2/1.html,转载请声明来源钻瓜专利网。