[发明专利]基于LDA主题模型的文档推荐方法在审
申请号: | 202210566870.X | 申请日: | 2022-05-23 |
公开(公告)号: | CN115017293A | 公开(公告)日: | 2022-09-06 |
发明(设计)人: | 范昕煜;杨雨婷;王又辰;田宗凯;栾真 | 申请(专利权)人: | 北京计算机技术及应用研究所 |
主分类号: | G06F16/335 | 分类号: | G06F16/335 |
代理公司: | 中国兵器工业集团公司专利中心 11011 | 代理人: | 王雪芬 |
地址: | 100854*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 lda 主题 模型 文档 推荐 方法 | ||
本发明涉及一种基于LDA主题模型的文档推荐方法,属于信息技术领域。本发明使用了LDA主题模型将每个文档进行向量化,并输出该文档的主题概率,将推荐系统中的所有文档主题概率结合起来便能得到一个文档对主题的矩阵。另一方面,通过给新用户初始化来赋予每个用户一个主题概率,并使用户主题概率的维度与文档主题概率的维度保持一致,然后将所有用户主题概率结合起来得到一个用户对主题的矩阵。最后,通过用户和文档的两个主题概率矩阵,计算出用户对文档的兴趣值并将相应文档推荐给用户。这种推荐方法可以广泛运用在文档推荐系统中,并适用于各类文档。
技术领域
本发明属于信息技术领域,具体涉及一种基于LDA主题模型的文档推荐方法。
背景技术
随着信息技术的快速发展和信息资源的不断丰富,信息呈爆炸式增长,面对海量的信息资源,如何从中获取到符合用户需求的信息,是当今大数据时代下面临的重大问题。文档推荐技术的使命是为用户和推荐物品建立联系,然而面对新用户、新物品时,推荐系统往往会遇到冷启动问题。对于新用户或者不活跃的用户,以及新物品或展示次数较少的物品,由于缺乏相关数据,彼此之间无法建立联系,就无法准确地进行推荐。为此,设计一个可以充分利用已有用户、文档特征并使其建立联系的方法,对于解决推荐系统冷启动问题具有重要意义。
发明内容
(一)要解决的技术问题
本发明要解决的技术问题是:如何解决文本进入推荐系统的冷启动问题。
(二)技术方案
为了解决上述技术问题,本发明提供了一种基于LDA主题模型的文档推荐方法,包括以下步骤:
第一步、以文本数据为输入,输出训练好的主题模型,并将用户-主题分布矩阵、文档-主题分布矩阵和计算得到的用户-文档得分矩阵存储至内存;
第二步、基于第一步按内容推荐文档。
优选地,第一步具体为:
(1)训练文本数据
采用LDA,以文本数据为输入,输出训练好的主题模型;
(2)计算文档-主题分布
文档导入时,通过所述主题模型计算得到其主题分布,即文档-主题分布,文档-主题分布矩阵中每一行代表一篇文档,每一列代表一个主题;
(3)计算用户-主题分布
当用户登录时,从数据库读取用户-主题分布,如果该用户是新用户,则判定用户对所有主题兴趣度一样,并初始化一个的所有值相等的主题分布,用户-主题分布矩阵中每一行代表一个用户,每一列代表一个主题;
(4)计算用户-文档得分
用户-文档得分矩阵由用户-主题分布矩阵和主题-文档分布矩阵计算得到:
用户-文档得分矩阵=用户-主题分布矩阵×主题-文档分布矩阵
其中,用户-文档得分矩阵中每一行代表一个用户对应各文档的得分,每一列代表一篇文档对应各用户的得分,主题-文档分布矩阵为文档-主题分布矩阵的转置;
用户-文档得分是用户-文档得分矩阵中的一个元素,计算用户-文档得分考虑三个因素,分别为用户兴趣、浏览历史、文档热度,用户兴趣体现用户对不同主题的关注度,浏览历史记录用户曾经浏览过的文档,文档热度反映该文档在推荐系统中的火爆程度;将用户-文档得分矩阵中的每个用户-文档得分都加上Sigmod(热度值),Sigmod(热度值)是指对热度值进行sigmod归一化后的值;
最后,根据用户兴趣与文档主题的相似度,综合考虑浏览历史、文档热度,遍历所有用户和文档,计算用户-文档得分;
(5)存储结果至内存
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京计算机技术及应用研究所,未经北京计算机技术及应用研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210566870.X/2.html,转载请声明来源钻瓜专利网。