[发明专利]一种中文微博话题信息处理方法有效
申请号: | 201510627783.0 | 申请日: | 2015-09-28 |
公开(公告)号: | CN105354216B | 公开(公告)日: | 2018-09-07 |
发明(设计)人: | 赵妍妍;秦兵;李泽魁 | 申请(专利权)人: | 哈尔滨工业大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 哈尔滨市松花江专利商标事务所 23109 | 代理人: | 杨立超 |
地址: | 150001 黑龙*** | 国省代码: | 黑龙江;23 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 一种中文微博话题信息处理方法,本发明涉及微博事件情感分布的原因分析算法。本发明是为了解决目前微博话题信息处理方法中采用的层次聚类算法和纠正算法的准确率低,不能将事件相关的微博划分到正确的主题下。本发明使用无监督学习的层次聚类排序方法和半监督学习的微博话题纠正算法两种方法,进行事件话题及其相关微博的挖掘,最终达到对相关微博进行情感分布统计及分析的目的。本发明能够更加准确地进行微博话题信息处理。本发明应用于微博话题信息处理领域。 | ||
搜索关键词: | 一种 中文 话题 信息处理 方法 | ||
【主权项】:
1.一种中文微博话题信息处理方法,其特征在于,所述处理方法包括以下步骤:步骤一:热点事件相关微博的判断;输入单个热点事件的相关微博,使用语言技术平台对文本预处理并通过关键词匹配方法判断微博是否相关;步骤二:微博的关键话题发现;通过统计微博中的Hashtag信息,挖掘热点事件微博中的话题信息,其中所述Hashtag为话题信息,即微博中两个“#”符号之间的文字;步骤三:话题的聚类排序算法;得到热点事件的相关微博后,首先进行话题抽取与聚类排序,其中所述话题抽取工作是指将微博所描述的话题信息进行抽取总结,话题的聚类排序是指先将部分相似的话题进行聚类处理;(1)层次聚类算法采用Hashtag字符串相似度算法,即字符串相似度作为聚类中距离计算的依据,计算公式如下:
其中所述HA和HB为SA和SB中的Hashtag字符串,SA为微博文本A,SB为微博文本B,LCS为两个字符串的最长公共子序列,Edit Distance为编辑距离,对两个字符串相似度的数值作了归一化处理,即公式的前后两部分分别除以了字符串HA和HB中的min(Length(HA),Length(HB))和max(Length(HA),Length(HB));(2)话题聚类结果排序算法采用根据微博数目与聚类结果话题数的加权关系作为排序公式;RankingScore(topic)=log(topicweibonumber)·topicnum (4)式中RankingScore(topic)是话题topic对应的排序得分,topic weibonumbe r为话题下含有的微博数目,topicnum为结果中合并的话题数目,对微博数目进行了对数处理;步骤四:微博话题纠正算法;(1)初始输入:话题聚类排序后的结果共K个,包括前S个话题和后U个话题;(2)前S个话题划分为“种子话题”,后U个话题划分为“非种子话题”,U个话题按照与S个话题的相似度排序划分为待预测集U1和训练反例集U2;(3)对S个话题的语料进行特征抽取以及模型训练;(4)将训练得到的模型预测非种子待预测集U1;(5)将U1中微博分类结果概率大于阈值的直接加入到对应S个话题中,同时将微博从待预测集U1中删除;(6)从第(2)步开始循环,直至达到S个话题对应微博的添加率小于阈值的条件,完成循环;(7)最终输出:自扩充的S个话题及其相关微博;步骤五:采用准确率@5指标进行评价;采用准确率@5指标反映算法的排序结果的优劣性,使用微博数目平均添加率和追加微博的平均命中率作为微博自扩充算法的评价指标;所述准确率@5指标为排序结果最前的5条预测正确的话题数目与前5条标准答案中话题数目的比值,即公式(5):
微博数目平均添加率是每个话题相关的微博自扩充后的添加率平均值,即公式(6):
追加微博的平均命中率,即算法中追加到现有话题的微博正确命中的数目与当前话题的微博数目比值,即公式(7):![]()
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于哈尔滨工业大学,未经哈尔滨工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201510627783.0/,转载请声明来源钻瓜专利网。