[发明专利]一种细粒度文本情感分析方法有效
申请号: | 201410178056.6 | 申请日: | 2014-04-25 |
公开(公告)号: | CN103995803B | 公开(公告)日: | 2017-07-04 |
发明(设计)人: | 於志文;夏云云;郭斌;周兴社;王柱 | 申请(专利权)人: | 西北工业大学 |
主分类号: | G06F17/27 | 分类号: | G06F17/27 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 710072 *** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 细粒度 文本 情感 分析 方法 | ||
技术领域
本发明属于英文文本情感分析技术领域,涉及一种细粒度文本情感分析方法,具体地说,涉及一种针对评论文本的细粒度情感分析方法。
背景技术
人类的情感是复杂而又多方面的。由于情感的复杂性和与其他外部事物的关系,它属于心理学中最具挑战性的现象。了解一个人的当前的情绪的传统方式有多种:如可以咨询其主观感受,观察其脸部表情或行为上的变化,以及其生理变化。事实上,一个人的情绪是复杂的,并不能被直接测量,仅能通过它们的外在表现形式来识别,如此就催生出各种用于识别人类情感的方法。在一般情况下,最常见的识别一个人的情绪反应的方法大致可以分为三类:(1)自我报告,(2)生理学方法,(3)行为观察。
基于传统方法监测个人的情绪状态需要大量的人力和物力,难以获得大量用户长时间的情绪相关数据。随着在线社交网络的不断发展,其拥有的用户数量不断增大,人们开始习惯经常将自己的所见所感分享给线上好友,由此研究者可以通过社交网站的API获取大量用户情绪相关数据,基于文本情感分析技术抽取出用户的情绪状态。
文本情感分析是一个新兴的研究课题,具有很大的研究价值和应用价值。专利200910219161.9根据不同主题文本的语言表达方式估计主题语言模型,计算待处理文本的语言模型与正负情感模型的距离,选取距离最近的情感模型的情感倾向赋予该文本。专利200910083522.1根据训练文本的标签确定测试文本的初始情感分,基于图排序算法利用所述测试文本的初始情感分迭代计算所述测试文本的情感分并进行归一化,以解决跨领域的文本情感倾向性分析问题。专利201210088366.X基于正负情感词典判断所有包含主题词的句子的极性,计算结果集合中正面句子极性之和及负面句子极性之和,从而得出整条微博的情感倾向性。专利201310000734.5通过构造一种具有Two-Level(双层)结构的DCRF模型实现了实体级别的情感倾向性判断,专利201310036034.1利用对象属性与情感词之间的关联信息以及情感词与修饰词之间的关系实现细粒度情感强度量化的统计和计算。
目前已有的情感分析技术主要将文本包含的用户情感分为两类:正向和负向,在情感类别的划分方面属于粗粒度的文本情感分析,丢失了大量用户情感相关信息。为了充分获得用户评论所含信息,更好的刻画用户的感受,本发明对评论文本做进一步的细粒度情感分析,即将正负面倾向分别进一步划分,例如负面情绪可以是生气,也可以是悲伤等。
发明内容
本发明的目的在于克服上述技术存在的缺陷,提供一种细粒度文本情感分析方法,该方法可以更加充分获得用户评论所含情感信息,可更好的支撑相关的应用研究,例如基于健康的用户情绪状态及变化情况分析。
其具体技术方案为:
步骤一:构建细粒度情感词典
选取国际级公认的基准情感分类作为细粒度情感分类,并将基准情感词作为各类别的种子情感词,通过wordNet(由Princeton大学的心理学家,语言学家和计算机工程师联合设计的一种基于认知语言学的英语词典)查找其同义词集合,并放入对应的类别,完成细粒度情感词典的第一步扩建;
wordNet将单词分为四类:名词、动词、副词和形容词;由基准情感词扩展得到的名词性情感集合,并按照相同的方式根据基准情感词的形容词、动词和副词形式,分别构建成其形容词、动词和副词形式的情感集合;同类别的情感集合,除了词性的差异之外,并不影响情感值的计算,则将一个类别下的情感集合视为一个大类,从而完成细粒度情感词典的第二步扩建;
至此,构建的细粒度情感词典还无法覆盖大部分的情感词汇;将其余情感词如何归类到细粒度情感类别的问题,转换为分析其与基准情感词在概念层次上基于常识的相似性,并将其分配到相似性最高的基准情感词所代表的情感类别中;最后分析归类结果,并完善可能存在的缺陷;至此完成细粒度情感词典的扩建;
步骤二:语句结构关系判断
判断语句中是否有连词,如果有,则表示该句为复合句,根据句间关系规则获得该连词表示的语句结构关系及语句情感值的计算规则;如果没有,则该语句是简单句;
步骤三:简单句的情感值评定
如果是复合句,则拆分为两个分句进行处理;如果为简单句,则直接计算其情感值;现在,考虑简单句的情感值评定方法,评论情感计算要考虑主题词相关性,与主题词无关的情感词会给情感计算带来干扰;而主题主要通过语句的主题(主语和宾语)体现,则只需考虑与主题相关的名词性和形容词性情感特征词;根据句子结构、依赖关系、情感词褒贬度及相关副词修饰强度,计算出简单句的情感值;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西北工业大学,未经西北工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410178056.6/2.html,转载请声明来源钻瓜专利网。