[发明专利]一种基于文本情感倾向识别的舆情检测方法在审
申请号: | 201310717168.X | 申请日: | 2013-12-23 |
公开(公告)号: | CN104731812A | 公开(公告)日: | 2015-06-24 |
发明(设计)人: | 苑志 | 申请(专利权)人: | 北京华易互动科技有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F17/27 |
代理公司: | 北京君尚知识产权代理事务所(普通合伙) 11200 | 代理人: | 余长江 |
地址: | 100025 北京市朝阳*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 文本 情感 倾向 识别 舆情 检测 方法 | ||
技术领域
本发明涉及一种基于文本的情感倾向识别的舆情检测方法,尤其涉及自然语言的情感分析,属于自然语言分析领域和网络信息安全领域。
背景技术
随着web2.0不断发展,尤其是博客、微博、论坛等自媒体产生了用户的参与、评价、体验、以及用户一些不满的情绪,这部分信息随着时间的积累将迅速的膨胀,依靠人工的方式难以收集判断并整理。此类研究逐渐成为一个研究热点,比如专利名称一种从互联网海量信息中发现热点的方法,专利号:200910028939.8;以及专利名称网络热点和舆情的检测方法,专利号:200910308542.4的技术文献;该发明通过搜集指定时间范围内的网络论坛和博客系统的文档、提取本征特征、进行褒贬倾向性分析等步骤,获知网名对热点事件的舆情观点。
2011年,佛蒙特大学计算实验室的项目Hedonometer在过去的五年中每天都会对Twitter上面的千万条Tweet进行情感分析,并将其结果记录了下来。通过分析它会在人们的Tweet中寻找一些反映正面情绪或者负面情绪的关键词。
2012年5月29日,联合国“全球脉动”(Global Pulse)计划发布《大数据开发:机遇与挑战》报告,阐述了大数据带来的机遇、主要挑战和大数据应用。Global Pulse计划是希望利用“大数据”来促进全球经济发展,使用自然语言解密软件来对社交网站和文本消息中的信息进行“情绪分析”,帮助预测某个给定地区的失业率、支出削减或是疾病爆发等现象。
目前在自然语言分析领域,由于国外的语言结构与国内的语言结构有着本质上的差异,中文与英文的语法结构存在很大的差异,汉语的博大精深,国外的一些分析技术很难应用到中文领域,特别在语义的识别上存在着一些误差。目前国内的常用的计算文本中抽取的关键词和种子词的相似度来对文本的情感倾向性进行判别(SO-PMI算法)、虽然在实现上更加简单,但是由于单词之间的情感相似度难以准确的计算和种子词的难以确定。基于svm算法,前提是训练一套较好的分析模型需要较长的时间,从实际角度来讲对于新词的扩展需要重新进行测试训练,会增加扩展的复杂度。本方法基于词性的统计以及情感强度的计算,具有较好的识别性能及准确度,同时方便于对情感词典的扩展。
发明内容
针对现有技术中存在的技术问题,本发明的目的在于提供一种基于文本情感倾向识别的舆情检测方法,实现了对文本情感倾向的快速分析、统计、判定,进行舆情监控、信息预测等多个领域。
本发明的方法主要是通过对一段文字信息进行分词处理过滤,抽取情感特征词,然后与情感词库进行匹配查找,得到的词条对应的情感强度、分类以及极性,得出一段文字或一句话的情感倾向及程度。
本发明的舆情检测方法流程图如附图所示,其步骤为:
1)建立一个情感特征词库,用于存储基本的情感特征词语及其情感强度、类别、极性等属性信息。其中(1,9)区间表示正面的情感强度,(-1,-9)区间表示负面情感强度,绝对值越大,表示情感强度越大;
2)对指定时间范围内或指定信息源中的每一待处理文本内容进行去杂处理,去除文本内容中的干扰的杂质,例如url、email、数字、特殊符号、以及HTML标签。其中特殊字符包括/r,/n,/t,HTML标签包括<body>、<style>、<title>、<br/>等带有尖括号闭合的标签。
3)分词处理,这里采用scws中文分词工具,将一段内容切分成若干个带有词性标注的单词,例如:词性n表示名词,a表示形容词,v表示动词。
4)根据分词到的结果进行过滤,排重处理。具体方法是:
a)过滤:为了提高词库的查询效率,通过scws分词得到的结果,按词性先过滤一部分与情感特征词无关的词性,例如:人名、地名、机构、时间词、代词等。
b)排重:由于信息源是人为产生的,很可能有带有强烈的个人情感色彩,对情感强度的判定会有一定干扰,以微博为例,例如汶川地震相关的评论,评论内容出现连续多个[泪],这种情况将多个连续重复出现的单词计为1个单词。
5)与情感特征词库进行匹配查找,抽取情感特征词以及对应的属性,得出对应的分类、情感强度以及极性。
6)根据情感强度以及极性的求和计算,可以反应出一段文字的情感倾向为正面或是负面的
7)根据所有待处理文件内容的情感倾向,确定该指定时间范围内或该指定信息源的舆情信息。
进一步的,所述情感特征的词典为一个数组,每个词条属性包括:情感强度、分类、极性。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京华易互动科技有限公司;,未经北京华易互动科技有限公司;许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310717168.X/2.html,转载请声明来源钻瓜专利网。
- 上一篇:广告关键词提取方法和装置
- 下一篇:一种译文评价方法及装置