[发明专利]基于LDA主题模型的微博用户兴趣的挖掘方法及系统有效
申请号: | 201410193287.4 | 申请日: | 2014-05-08 |
公开(公告)号: | CN103970863B | 公开(公告)日: | 2017-12-19 |
发明(设计)人: | 徐华;黄笑秋;王玮 | 申请(专利权)人: | 清华大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京清亦华知识产权代理事务所(普通合伙)11201 | 代理人: | 张大威 |
地址: | 100084 北京*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种基于LDA主题模型的微博用户兴趣的挖掘方法,包括以下步骤从微博中采集用户关系信息和用户标签信息;将用户关系信息集成至LDA主题模型中;根据兴趣类别从用户标签信息中分别为每个主题选定一个标签作为种子词,并提取多个种子词以将多个种子词集成至LDA主题模型中,以利用LDA主题模型对用户的兴趣进行挖掘。本发明实施例的挖掘方法,通过采集用户关系信息和用户标签信息,从而根据用户关系信息和用户标签信息深入的挖掘隐藏在用户关系和用户标签当中的用户兴趣和用户标签的对应关系,找出用户在不同兴趣领域的分布。本发明还公开了一种基于LDA主题模型的微博用户兴趣的挖掘系统。 | ||
搜索关键词: | 基于 lda 主题 模型 用户 兴趣 挖掘 方法 系统 | ||
【主权项】:
一种基于LDA主题模型的微博用户兴趣的挖掘方法,其特征在于,包括以下步骤:从微博中采集用户关系信息和用户标签信息,其中,所述用户标签信息包括多个用户标签;将所述用户关系信息集成至隐式狄利克雷分配LDA主题模型中,所述LDA主题模型根据兴趣类别设置有多个主题,并且将Topic‑in‑set先验、狄利克雷森林先验和层次非对称先验集成至所述LDA主题模型中,其中,所述用户关系信息、Topic‑in‑set先验、狄利克雷森林先验和层次非对称先验根据以下公式进行采样,以集成至所述LDA主题模型中:P(zi=k|z-i,w,q1:T)∝(ΣsFdn-i,s(d)+γΣk=1TΣsFdn-i,s(d)+γ)×(ησ(k)∈S(i)+1-η)×ΠsIv↑irv(Cv(s↓i))+n-i,vCv(s↓i)ΣkCv(s)(rvk+n-i,v(k)).n-i,k(d)+αNk+α′/TΣtNk+αΣkTn-i,k(d)+α]]>其中,为文档d在狄利克雷森林中节点s上分配的词的数目,γ为所述狄利克雷森林的超参数,η为软约束的参数,为所述文档d分配至主题k上的数目,σ(k)为指示器函数,为主题v在所述狄利克雷森林上的边的权重,Cv(s↓i)为所述主题v的狄利克雷树中,同时属于叶子节点wi的祖先以及所述节点s的孩子节点的节点集合,为所述主题v的狄利克雷树中,所述叶子节点wi的祖先的节点集合;以及根据所述兴趣类别从所述用户标签信息中分别为每个主题选定一个标签作为种子词,并提取多个种子词以将所述多个种子词集成至所述LDA主题模型中,以利用所述LDA主题模型对用户的兴趣进行挖掘。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于清华大学,未经清华大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201410193287.4/,转载请声明来源钻瓜专利网。
- 上一篇:一种新式节能灯涂粉用隔膜泵装置
- 下一篇:太谷饼全自动生产线