[发明专利]基于多模态深度玻尔兹曼机的微博话题表示及主题发现方法有效

专利信息
申请号: 201611203288.8 申请日: 2016-12-23
公开(公告)号: CN106778880B 公开(公告)日: 2020-04-07
发明(设计)人: 刘杰;翟羽佳;王嫄 申请(专利权)人: 南开大学
主分类号: G06K9/62 分类号: G06K9/62;G06F17/16;G06Q50/00
代理公司: 天津佳盟知识产权代理有限公司 12002 代理人: 侯力
地址: 300071*** 国省代码: 天津;12
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 基于 多模态 深度 玻尔兹曼机 话题 表示 主题 发现 方法
【说明书】:

基于多模态深度玻尔兹曼机的微博话题表示及主题发现方法。本发明通过对微博中话题标签进行分析,综合利用话题标签间共现信息及话题标签所在微博的向量空间表达这两种模态进行话题标签的表达建模。通过这两种信息得到的表达同时包含了话题标签本身相似性及所在微博的相似性。对话题标签的共现信息及微博的向量空间表达分别采用不同的深度玻尔兹曼机进行建模,最后将两个模态结果通过多模态的深度玻尔兹曼机进行联合学习,从而得到对联合两种模态的多模态表达。通过对得到的话题标签的多模态表达进行聚类,可将其中相似的话题标签聚到一起,从而提取出相应的微博主题。对于不含话题标签的微博,也可通过本模型生成话题标签,进而进行主题发现。

技术领域

本发明属于计算机应用技术领域,涉及数据挖掘,社交网络,微博分析,特别是一种基于多模态深度玻尔兹曼机的微博话题表示及主题发现。

背景技术

微博中的主题发现日益成为一个热门的研究课题。然而由于微博自身的短小,不规范等原因导致了严重的稀疏和噪音问题,使得传统的主题模型(例如LDA)难以从微博中获得高质量的主题。针对以上问题,人们提出了两类解决方法。一种是将微博拼接成一个大文档,例如Hong等将同一用户,包含同一词语或同一话题标签的微博聚合在一起[1]。Mehrotra等研究了不同的LDA过程的共享方法[2]。Yan等在进行主题建模之前先基于非负矩阵分解将微博进行了聚类[3]。由于微博自身的独立性,拼接方法在解决短小问题的同时会引入新的噪声。另一类方法是用辅助的长文本来扩展或链接段文本,从而达到丰富短文本的目的。例如Hu等利用维基百科和WordNet中的词组关系构建了一个语义结构树[4]。这种方法会比较依赖构建的语义结构树的准确性和完备性。除了从内容着手,一些工作利用了半结构化的信息如话题标签来进行微博建模。例如带标签的LDA方法即是利用手工定义的监督标签来控制微博间的关系[5]。该方法对手工定义的标签有较强的依赖性从而难以进行泛化和扩展。Wang等构建了一个话题标签的图来对话题标签的关系进行建模,进而将话题标签作为主题模型的弱监督信息,从而提出了基于话题标签图的主题模型[6]。该方法对话题标签信息的利用仍是间接的,不能充分利用话题标签和微博之间的关系。

参考文献:

[1]L.Hong and B.D.Davison,“Empirical study of topic modeling intwitter,”in Proceedings of the First Workshop on Social Media Analytics,ser.SOMA’10.New York,NY,USA:ACM,2010,pp.80–88.

[2]R.Mehrotra,S.Sanner,W.Buntine,and L.Xie,“Improving lda topicmodels for microblogs via tweet pooling and automatic labeling,”inProceedings of the 36th International ACM SIGIR Conference on Research andDevelopment in Information Retrieval,ser.SIGIR’13.New York,NY,USA:ACM,2013,pp.889–892.

[3]X.Yan,J.Guo,S.Liu,X.-q.Cheng,and Y.Wang,“Clustering short textusing ncut-weighted non-negative matrix factorization,”in Proceedings of the21st ACM International Conference on Information and Knowledge Management,ser.CIKM’12.New York,NY,USA:ACM,2012,pp.2259–2262.

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南开大学,未经南开大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201611203288.8/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top