[发明专利]基于LDA主题模型的微博用户兴趣的挖掘方法及系统有效

专利信息
申请号: 201410193287.4 申请日: 2014-05-08
公开(公告)号: CN103970863B 公开(公告)日: 2017-12-19
发明(设计)人: 徐华;黄笑秋;王玮 申请(专利权)人: 清华大学
主分类号: G06F17/30 分类号: G06F17/30
代理公司: 北京清亦华知识产权代理事务所(普通合伙)11201 代理人: 张大威
地址: 100084 北京*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 基于 lda 主题 模型 用户 兴趣 挖掘 方法 系统
【权利要求书】:

1.一种基于LDA主题模型的微博用户兴趣的挖掘方法,其特征在于,包括以下步骤:

从微博中采集用户关系信息和用户标签信息,其中,所述用户标签信息包括多个用户标签;

将所述用户关系信息集成至隐式狄利克雷分配LDA主题模型中,所述LDA主题模型根据兴趣类别设置有多个主题,并且将Topic-in-set先验、狄利克雷森林先验和层次非对称先验集成至所述LDA主题模型中,其中,所述用户关系信息、Topic-in-set先验、狄利克雷森林先验和层次非对称先验根据以下公式进行采样,以集成至所述LDA主题模型中:

P(zi=k|z-i,w,q1:T)(ΣsFdn-i,s(d)+γΣk=1TΣsFdn-i,s(d)+γ)×(ησ(k)S(i)+1-η)×ΠsIvirv(Cv(si))+n-i,vCv(si)ΣkCv(s)(rvk+n-i,v(k)).n-i,k(d)+αNk+α/TΣtNk+αΣkTn-i,k(d)+α]]>

其中,为文档d在狄利克雷森林中节点s上分配的词的数目,γ为所述狄利克雷森林的超参数,η为软约束的参数,为所述文档d分配至主题k上的数目,σ(k)为指示器函数,为主题v在所述狄利克雷森林上的边的权重,Cv(s↓i)为所述主题v的狄利克雷树中,同时属于叶子节点wi的祖先以及所述节点s的孩子节点的节点集合,为所述主题v的狄利克雷树中,所述叶子节点wi的祖先的节点集合;以及

根据所述兴趣类别从所述用户标签信息中分别为每个主题选定一个标签作为种子词,并提取多个种子词以将所述多个种子词集成至所述LDA主题模型中,以利用所述LDA主题模型对用户的兴趣进行挖掘。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于清华大学,未经清华大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201410193287.4/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top