[发明专利]一种中文微博话题信息处理方法有效
申请号: | 201510627783.0 | 申请日: | 2015-09-28 |
公开(公告)号: | CN105354216B | 公开(公告)日: | 2018-09-07 |
发明(设计)人: | 赵妍妍;秦兵;李泽魁 | 申请(专利权)人: | 哈尔滨工业大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 哈尔滨市松花江专利商标事务所 23109 | 代理人: | 杨立超 |
地址: | 150001 黑龙*** | 国省代码: | 黑龙江;23 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 中文 话题 信息处理 方法 | ||
一种中文微博话题信息处理方法,本发明涉及微博事件情感分布的原因分析算法。本发明是为了解决目前微博话题信息处理方法中采用的层次聚类算法和纠正算法的准确率低,不能将事件相关的微博划分到正确的主题下。本发明使用无监督学习的层次聚类排序方法和半监督学习的微博话题纠正算法两种方法,进行事件话题及其相关微博的挖掘,最终达到对相关微博进行情感分布统计及分析的目的。本发明能够更加准确地进行微博话题信息处理。本发明应用于微博话题信息处理领域。
技术领域
本发明涉及微博话题信息处理方法。
背景技术
微博作为新兴的社交媒体平台,也是国内最流行的社交媒体平台之一,存在着数以亿计的活跃用户,越来越多的网民选择在微博上获取与分享自己感兴趣的信息,在微博日均千万级的大数据面前,分析网民对某一事件的观点与态度是一件非常有意义的工作,越来越多的学者开始关注微博这样的大数据背后的信息。
由于微博作为社交媒体的形式走入人们生活的时间并不长,所以国内外面向微博的事件情感分布原因分析的相关研究不是很多,现阶段的微博事件挖掘方法主要有,2011年,Weng等人通过将小波变换的相关原理利用到微博文本中一些词语频率的监听上,通过分析其自相关性过滤筛选出突发词汇,聚类为突发事件(文献[1]:Weng J,Lee B S.EventDetection in Twitter[J].ICWSM,2011,11:401-408),该方法在事件监测方面有一定效果,但是易受噪声干扰;Zhao等人在为了对微博中的热点词条进行排序,根据含有关键词条的微博的转发率、词频等信息计算出来一个概率值,根据概率得出基于“有趣程度”的排序公式(文献[2]Zhao W X,Jiang J,He J,et al.Topical keyphrase extraction fromtwitter[C]//Proceedings of the 49th Annual Meeting of the Association forComputational Linguistics:Human Language Technologies-Volume 1.Associationfor Computational Linguistics,2011:379-388)。Spina等人列举了现有的文本抽取的抽取方式,通过对少量已标注微博语料进行了话题抽取,最后出乎意料的是最简单的基于词频/逆文档频率的抽取方法取得最好的效果,同时证明了名词过滤的预处理在本任务中是有效的(文献[3]Spina D,Meij E,de Rijke M,et al.Identifying entity aspects inmicroblog posts[C]//Proceedings of the 35th international ACM SIGIRconference on Research and development in information retrieval.ACM,2012:1089-1090)。相比前人比较粗糙的工作,Abhimanyu和Anitha在2014年的工作(文献[4]DasA,Kannan A.Discovering topical aspects in microblogs[C]//Proceedings ofCOLING.The 25th International Conference on Computational Linguistics:Technical Papers,2014:860-871)就显得充分很多,他们为了挖掘Twitter中的热点话题,通过观察微博事件的共性,得出了三项评价指标,分别为“多样性(Diversity)”、“唯一性(Uniqueness)”和“突发性(Burstiness)”,用弱标注的训练语料通过一个高斯混合模型来拟合数据的分布,从而输出候选角度是否为微博事件,这样的有监督学习的话题抽取方法也可以取得不错的效果,但是很遗憾这个算法没有涉及话题的聚类排序处理。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于哈尔滨工业大学,未经哈尔滨工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510627783.0/2.html,转载请声明来源钻瓜专利网。