[发明专利]基于多模态深度玻尔兹曼机的微博话题表示及主题发现方法有效
申请号: | 201611203288.8 | 申请日: | 2016-12-23 |
公开(公告)号: | CN106778880B | 公开(公告)日: | 2020-04-07 |
发明(设计)人: | 刘杰;翟羽佳;王嫄 | 申请(专利权)人: | 南开大学 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06F17/16;G06Q50/00 |
代理公司: | 天津佳盟知识产权代理有限公司 12002 | 代理人: | 侯力 |
地址: | 300071*** | 国省代码: | 天津;12 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 多模态 深度 玻尔兹曼机 话题 表示 主题 发现 方法 | ||
基于多模态深度玻尔兹曼机的微博话题表示及主题发现方法。本发明通过对微博中话题标签进行分析,综合利用话题标签间共现信息及话题标签所在微博的向量空间表达这两种模态进行话题标签的表达建模。通过这两种信息得到的表达同时包含了话题标签本身相似性及所在微博的相似性。对话题标签的共现信息及微博的向量空间表达分别采用不同的深度玻尔兹曼机进行建模,最后将两个模态结果通过多模态的深度玻尔兹曼机进行联合学习,从而得到对联合两种模态的多模态表达。通过对得到的话题标签的多模态表达进行聚类,可将其中相似的话题标签聚到一起,从而提取出相应的微博主题。对于不含话题标签的微博,也可通过本模型生成话题标签,进而进行主题发现。
技术领域
本发明属于计算机应用技术领域,涉及数据挖掘,社交网络,微博分析,特别是一种基于多模态深度玻尔兹曼机的微博话题表示及主题发现。
背景技术
微博中的主题发现日益成为一个热门的研究课题。然而由于微博自身的短小,不规范等原因导致了严重的稀疏和噪音问题,使得传统的主题模型(例如LDA)难以从微博中获得高质量的主题。针对以上问题,人们提出了两类解决方法。一种是将微博拼接成一个大文档,例如Hong等将同一用户,包含同一词语或同一话题标签的微博聚合在一起[1]。Mehrotra等研究了不同的LDA过程的共享方法[2]。Yan等在进行主题建模之前先基于非负矩阵分解将微博进行了聚类[3]。由于微博自身的独立性,拼接方法在解决短小问题的同时会引入新的噪声。另一类方法是用辅助的长文本来扩展或链接段文本,从而达到丰富短文本的目的。例如Hu等利用维基百科和WordNet中的词组关系构建了一个语义结构树[4]。这种方法会比较依赖构建的语义结构树的准确性和完备性。除了从内容着手,一些工作利用了半结构化的信息如话题标签来进行微博建模。例如带标签的LDA方法即是利用手工定义的监督标签来控制微博间的关系[5]。该方法对手工定义的标签有较强的依赖性从而难以进行泛化和扩展。Wang等构建了一个话题标签的图来对话题标签的关系进行建模,进而将话题标签作为主题模型的弱监督信息,从而提出了基于话题标签图的主题模型[6]。该方法对话题标签信息的利用仍是间接的,不能充分利用话题标签和微博之间的关系。
参考文献:
[1]L.Hong and B.D.Davison,“Empirical study of topic modeling intwitter,”in Proceedings of the First Workshop on Social Media Analytics,ser.SOMA’10.New York,NY,USA:ACM,2010,pp.80–88.
[2]R.Mehrotra,S.Sanner,W.Buntine,and L.Xie,“Improving lda topicmodels for microblogs via tweet pooling and automatic labeling,”inProceedings of the 36th International ACM SIGIR Conference on Research andDevelopment in Information Retrieval,ser.SIGIR’13.New York,NY,USA:ACM,2013,pp.889–892.
[3]X.Yan,J.Guo,S.Liu,X.-q.Cheng,and Y.Wang,“Clustering short textusing ncut-weighted non-negative matrix factorization,”in Proceedings of the21st ACM International Conference on Information and Knowledge Management,ser.CIKM’12.New York,NY,USA:ACM,2012,pp.2259–2262.
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南开大学,未经南开大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201611203288.8/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种人物关系分类方法及装置
- 下一篇:数字印花方法及装置