[发明专利]微博中网络新词抽取方法和微博情感分析方法及系统有效
申请号: | 201310506561.4 | 申请日: | 2013-10-24 |
公开(公告)号: | CN103559233B | 公开(公告)日: | 2017-05-31 |
发明(设计)人: | 张鲁民;贾焰;周斌;韩毅 | 申请(专利权)人: | 中国人民解放军国防科学技术大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F17/27 |
代理公司: | 北京泛华伟业知识产权代理有限公司11280 | 代理人: | 王勇 |
地址: | 410073 湖南省长沙*** | 国省代码: | 湖南;43 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 微博中 网络 新词 抽取 方法 情感 分析 系统 | ||
1.一种微博情感分析方法,所述方法包括:
步骤1,确定情感向量E,所述情感向量E由多个能够表示情感的情感词构成;
步骤2,对于待分析的每条博文M,建立该博文的情感向量EM=<xM1,xM2,…,xMi,…>;其中,如果情感向量E中第i个情感词属于该博文M的关键词集合,则EM中对应的第i个元素xMi取值为1,否则取值为0;
步骤3,基于博文的情感向量来得到对事件的情感分布;
其中,所述步骤1还包括对微博数据流进行监测,定期从微博语料库中抽取网络新词,并从中选择能表示情感的网络新词添加到情感向量E中;
其中,所述从微博语料库中抽取网络新词包括以下步骤:
步骤1)基于N-gram将微博语料库中的每条博文切分成多个候选词,从而形成候选词集合;
步骤2)从候选词集合中删除词典中已有的词;
步骤3)从候选词集合中选择出现频率高的前K个候选词并计算其互信息;
步骤4)从所述K个候选词中选择其互信息大于互信息阈值的候选词来构成网络新词候选集;
步骤5)分别对两个或更多个微博语料库执行步骤1)至4)以得到多个网络新词候选集,并选择在多个网络新词候选集中共同出现的词作为网络新词。
2.根据权利要求1所述的方法,所述步骤1中所述情感向量E中的情感词是从临床心理学中的情感检测表中抽取出的能够表示情感的情感词。
3.根据权利要求1或2所述的方法,所述步骤1中所述情感向量E中还包括能表达情感的表情符号。
4.根据权利要求1所述的方法,在所述步骤1)之前还包括对微博语料库进行预处理的步骤,其包括:对于仅转发的博文,进行直接合并,只保留一个样本;对于转发并评论的博文,将转发内容去除,只保留评论内容;对于拷贝信息源,提取主要关键词,作为一条微博进行处理。
5.根据权利要求1所述的方法,所述步骤2)还包括从候选词集合中删除出现频率低于预定阈值的词。
6.根据权利要求1所述的方法,所述步骤3包括对与事件相关的所有博文的情感向量求和,以分析在该事件中公众的主流情感及在情感向量的各维度上的情感分布比例。
7.根据权利要求1所述的方法,还包括基于情感向量E建立情感向量层次结构,所述情感向量层次结构包括顶层、中间层、底层和倾向性层,其中底层为由多个情感词构成情感向量E,中间层是底层情感词的聚类,并隶属于顶层类别,顶层分为基本情绪、复合情绪和其他情绪三类型,倾向性层为每个情感词的情感倾向,分为积极、消极、中立三类。
8.根据权利要求7所述的方法,还包括对于待分析的每条博文M,分别建立该博文的顶层情感向量、中间层情感向量、底层情感向量和倾向层情感向量的步骤,其中上层的情感向量可由下层的情感向量聚合而成。
9.根据权利要求8所述的方法,所述步骤3还包括将博文的情感向量按照时间粒度进行聚合,以得到情感随时间的变化趋势。
10.根据权利要求8所述的方法,所述步骤3还包括基于所建立的博文的情感向量,统计各个事件中属于各情感的博文占与该事件相关的所有博文的比例。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国人民解放军国防科学技术大学,未经中国人民解放军国防科学技术大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310506561.4/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种去除邻硝基苯甲醛的酶制剂及其应用
- 下一篇:空调散热器用清洗剂