[发明专利]微博中网络新词抽取方法和微博情感分析方法及系统有效
申请号: | 201310506561.4 | 申请日: | 2013-10-24 |
公开(公告)号: | CN103559233B | 公开(公告)日: | 2017-05-31 |
发明(设计)人: | 张鲁民;贾焰;周斌;韩毅 | 申请(专利权)人: | 中国人民解放军国防科学技术大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F17/27 |
代理公司: | 北京泛华伟业知识产权代理有限公司11280 | 代理人: | 王勇 |
地址: | 410073 湖南省长沙*** | 国省代码: | 湖南;43 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种针对网络微博进行情感分析的方法,针对传统情感分析中所存在的对突发事件多元化情感表示不足问题,提出了基于多维向量的表示模型来进行情感分析的方法。结合临床心理学情感检测表抽取情感词初始化情感分析向量,其次利用基于大规模语料库和统计的方法自动发现微博中的网络新词,自动吸收能表达情感的网络新词与情感标识符,不断扩充情感向量,并建立情感向量的层次化结构;最后基于已有的向量模型,对微博文本进行多角度情感分析和时序分析。 | ||
搜索关键词: | 微博中 网络 新词 抽取 方法 情感 分析 系统 | ||
【主权项】:
一种微博情感分析方法,所述方法包括:步骤1,确定情感向量E,所述情感向量E由多个能够表示情感的情感词构成;步骤2,对于待分析的每条博文M,建立该博文的情感向量EM=<xM1,xM2,…,xMi,…>;其中,如果情感向量E中第i个情感词属于该博文M的关键词集合,则EM中对应的第i个元素xMi取值为1,否则取值为0;步骤3,基于博文的情感向量来得到对事件的情感分布;其中,所述步骤1还包括对微博数据流进行监测,定期从微博语料库中抽取网络新词,并从中选择能表示情感的网络新词添加到情感向量E中;其中,所述从微博语料库中抽取网络新词包括以下步骤:步骤1)基于N‑gram将微博语料库中的每条博文切分成多个候选词,从而形成候选词集合;步骤2)从候选词集合中删除词典中已有的词;步骤3)从候选词集合中选择出现频率高的前K个候选词并计算其互信息;步骤4)从所述K个候选词中选择其互信息大于互信息阈值的候选词来构成网络新词候选集;步骤5)分别对两个或更多个微博语料库执行步骤1)至4)以得到多个网络新词候选集,并选择在多个网络新词候选集中共同出现的词作为网络新词。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国人民解放军国防科学技术大学,未经中国人民解放军国防科学技术大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201310506561.4/,转载请声明来源钻瓜专利网。
- 上一篇:一种去除邻硝基苯甲醛的酶制剂及其应用
- 下一篇:空调散热器用清洗剂