[发明专利]一种基于内容的跨领域推荐方法在审
申请号: | 201910454275.5 | 申请日: | 2019-05-29 |
公开(公告)号: | CN110232153A | 公开(公告)日: | 2019-09-13 |
发明(设计)人: | 佘焕波;田翔 | 申请(专利权)人: | 华南理工大学 |
主分类号: | G06F16/9535 | 分类号: | G06F16/9535;G06Q30/06;G06K9/62;G06N3/04;G06N3/08 |
代理公司: | 广州市华学知识产权代理有限公司 44245 | 代理人: | 梁莹;顾思妍 |
地址: | 510640 广*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 目标领域 用户行为 源领域 内容语义 文本信息 编码网络 兴趣向量 训练数据 用户兴趣 语义向量 词表 计算相似度 构建 向量 匹配 | ||
1.一种基于内容的跨领域推荐方法,其特征在于:包括以下步骤:
步骤S1:分别采集源领域的文本语料和目标领域的文本语料,并进行分词统计,得到用户兴趣词表;
步骤S2:采用源领域的用户行为序列中项目的文本信息作为源领域训练数据,采用目标领域中每个项目的文本信息作为目标领域训练数据;
步骤S3:构建内容语义编码网络模型,利用步骤S2构建的源领域训练数据和目标领域训练数据对内容语义编码网络模型进行分类训练;
步骤S4:利用步骤S3训练好的内容语义编码网络模型对源领域的用户行为和目标领域的项目进行内容语义编码,得到用户行为兴趣向量和项目语义向量;
步骤S5:对每个用户,利用其兴趣向量与项目语义向量计算相似度,并得到k个最相似的项目作为推荐项目。
2.根据权利要求1所述的基于内容的跨领域推荐方法,其特征在于:在步骤S1中,所述分别采集源领域的文本语料和目标领域的文本语料,并进行分词统计,得到用户兴趣词表是指:对源领域和目标领域的所有文本语料进行采集并分词,采用词频排序方式取词频最高的N个词作为兴趣词表,然后对兴趣词表进行去除停用词处理,最终得到用户兴趣词表。
3.根据权利要求1所述的基于内容的跨领域推荐方法,其特征在于:步骤S2包括以下步骤:
步骤S21:取源领域中用户最近交互过的M个项目的文本信息按交互发生时间拼接成用户行为序列文本,并随机取M个项目序列中的一个项目作为预测目标,将其在序列中删除;其余项目的文本信息作为源领域训练数据;然后选取预测目标项目的文本信息中属于用户兴趣词表的词作为文本分类的标签;
步骤S22:对于目标领域中的项目,将其文本信息作为目标领域训练数据,将文本信息中属于用户兴趣词表的词作为文本分类的标签;
步骤S23:对步骤S21中源领域训练数据和步骤S22中目标领域训练数据进行分词并编码为独热编码,用于输入内容语义编码网络模型进行训练。
4.根据权利要求3所述的基于内容的跨领域推荐方法,其特征在于:所述内容语义编码网络模型包括依次连接的embedding层、两层LSTM层、池化层、两层全连接层和softmax层;其中,embedding层和两层LSTM层分别与目标领域中的项目数量或源领域用户中的项目数量相等。
5.根据权利要求4所述的基于内容的跨领域推荐方法,其特征在于:在步骤S3中,利用步骤S2构建的源领域训练数据和目标领域训练数据对内容语义编码网络模型进行分类训练是指:包括以下步骤:
步骤S31:对源领域训练数据输入的独热编码或目标领域训练数据输入的独热编码,利用一层embedding层进行降维得到词向量;
步骤S32:使用两层LSTM层对步骤S31的词向量序列进行编码,提取文本的语义信息;
步骤S33:对步骤S32提取文本的语义信息输入到池化层和两层全连接层中,再将全连接层的输出连接到softmax层及交叉熵损失函数进行分类,交叉熵损失函数的定义如下:
其中,y为步骤S2产生的源领域中文本分类的标签或目标领域中文本分类的标签,为内容语义编码网络模型输出的源领域用户行为的预测标签或目标领域项目的预测标签;
步骤S34:通过所述交叉熵损失函数和内容语义编码网络模型参数计算得到前向传播损失值;
步骤S35,反向传播得到训练误差。
6.根据权利要求1所述的基于内容的跨领域推荐方法,其特征在于:步骤S5中,采用余弦距离的计算方式计算兴趣向量与项目语义向量的相似度。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华南理工大学,未经华南理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910454275.5/1.html,转载请声明来源钻瓜专利网。