[发明专利]一种基于神经协同过滤挖掘深层特征的文本对象精准推送方法有效
申请号: | 201910637445.3 | 申请日: | 2019-07-15 |
公开(公告)号: | CN110532372B | 公开(公告)日: | 2022-03-15 |
发明(设计)人: | 杨波;刘辉;牟其林;李泽松 | 申请(专利权)人: | 电子科技大学;中电科大数据研究院有限公司 |
主分类号: | G06F16/335 | 分类号: | G06F16/335;G06F16/33;G06F16/9535;G06F40/289;G06F40/30;G06N3/04;G06N3/08 |
代理公司: | 电子科技大学专利中心 51203 | 代理人: | 周刘英 |
地址: | 611731 四川省成*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 神经 协同 过滤 挖掘 深层 特征 文本 对象 精准 推送 方法 | ||
1.一种基于神经协同过滤挖掘深层特征的文本对象精准推送方法,其特征在于,包括下列步骤:
步骤一:构建文档特征提取网络和推送网络;
其中,文档特征提取网络基于卷积神经网络设置,包括嵌入层、卷积层、最大值池化方式的池化层和全连接层;
嵌入层的输入为文本对象的描述文档的One-Hot矩阵,用于将输入的描述文档的One-Hot矩阵通过预置的嵌入矩阵将One-Hot矩阵中的每个One-Hot向量映射为所述One-Hot向量表示的词语的隐语义向量;
卷积层用于提取每个文本对象的上下文特征,所述卷积层包括多个滑动窗口的卷积核,且每个卷积核包括多个神经元;
池化层用于获取每个卷积核的每个神经元所提取的局部特征向量中的最大值;并拼接同一卷积核中的所有神经元所提取的局部特征向量中的最大值得到对应各卷积核的池化层挑选特征向量;并拼接所有卷积核的池化层挑选特征向量后输入全连接层;
全连接层进行非线性映射处理后,得到文本对象的文档特征向量;
所述推送网络包括嵌入层、中间层和预测层;
其中,推送网络的嵌入层包括用户嵌入层和文本对象嵌入层:
用户嵌入层用于将用户的ID索引值映射为用户隐向量uu,文本对象嵌入层用于将文本对象的ID索引值映射为文本对象方差向量;
通过中间层将文档特征向量和文本对象的方差向量进行拼接,再依次通过多个全连接层进行非线性映射得到文本对象的文档隐向量vi;
以及通过中间层将用户隐向量uu与文档隐向量vi进行拼接,再依次通过多个全连接层进行非线性映射得到浅层特征的推送概率
并计算用户u与文本对象i交互的深层特征的推送概率
其中,wkj表示用户隐向量uu中的第k个隐因子uku与文档隐向量vi中的第j个隐因子vji之间的联系对预测推送概率产生的影响权重,K表示向量uku和vji的向量维度;
预测层融合推送概率和得到任意待推荐文本对象i对任意用户u的最终预测结果
步骤二、基于深度学习训练过程,采集训练数据集,对构建的文档特征提取网络和推送网络进行网络参数训练,得到训练好的文档特征提取网络和推送网络;
步骤三、文本对象推送处理:
对待推荐的用户集和文本对象集,获取每个待推荐用户的文本对象推荐列表并向对应用户推送:提取各待推荐文本对象的One-Hot矩阵并输入训练好的文档特征提取网络,获取文本对象的文档特征向量;将待推荐文本对象的ID索引值输入文本对象嵌入层、待推荐用户的ID索引值输入用户嵌入层,基于得到的文档特征向量,根据训练好的推送网络得到每个待推荐文本对象与待推荐用户之间的最终预测结果并选择前T个最高的最终预测结果作为当前待推荐用户的文本对象推荐列表。
2.如权利要求1所述的方法,其特征在于,描述文档的One-Hot矩阵的设置采用下述方式:
对待处理的文本对象进行停用词删除处理后的描述文档,统计每个词语在当前描述文档中出现的频率;以及对待处理的所有文本对象中,统计包含某个词语的描述文档的文本对象数量,并按照预设的归一化方式对得到的本对象数量进行归一化处理,得到不同词语区分文档对象的度量值,即逆向文档频率;在基于频率与逆向文档频率的乘积得到文本对象的不同词语对其的重要程度值;
删除每个文本对象的描述文档中重要程度值大于预设阈值的词语,再基于预设的文本对象的最大词语数N,对文本对象的描述文档进行规范处理:若当前描述文档包含的词语大于最大词语数N,则截取前N个词语;
基于当前描述文档中出现的所有词语构建词典,并为词典中的每个词语设置一个索引编号,同时设置一个无意义词的索引编号;
对于词语数小于N的描述文档,在描述文档的最后一个词语后填充无意义词,直到其词语数为N;
基于词典中的每个词语的数值索引值将该描述文档中的每个词语转换成长度为V且仅当前词语的索引编号位置为1、其余位置为0的One-Hot向量;对于词语数小于N的描述文档,则设置多个仅无意义词的索引编号位置为1、其余位置为0的One-Hot向量,从而构建行数为N,列数为V的One-Hot向量矩阵。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于电子科技大学;中电科大数据研究院有限公司,未经电子科技大学;中电科大数据研究院有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910637445.3/1.html,转载请声明来源钻瓜专利网。