[发明专利]一种基于认知结构模型的文本情感类型识别方法及装置无效
申请号: | 201310363414.6 | 申请日: | 2013-08-20 |
公开(公告)号: | CN103440235A | 公开(公告)日: | 2013-12-11 |
发明(设计)人: | 毛文吉;曾大军;皇甫璐雯;王磊 | 申请(专利权)人: | 中国科学院自动化研究所 |
主分类号: | G06F17/27 | 分类号: | G06F17/27;G06F17/30 |
代理公司: | 中科专利商标代理有限责任公司 11021 | 代理人: | 宋焰琴 |
地址: | 100190 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 认知 结构 模型 文本 情感 类型 识别 方法 装置 | ||
技术领域
本发明属于计算机科学技术中的观点挖掘和情感分析领域,尤其涉及一种基于情感的认知结构模型,采用统计方法构建情感维度词典,自动识别出文本中的多种情感类型的方法及其装置。
背景技术
观点挖掘和情感分析在社会公共安全、商务智能、社情舆情等领域具有十分重要的应用价值。近年来,社会媒体(人人网、科学网、博客、微博、微信等)在互联网中的蓬勃发展导致了用户产生的内容在数量上呈爆炸式增长。用户产生的内容中通常包含一定量的情感,能够为社会、经济、政治、文化相关的多个领域应用提供关键信息和决策支持。
目前观点挖掘和情感分析方法主要是识别观点的正负极性和文本中多种情感类型。识别观点正负极性的方法主要包括文档级、语句级、基于情感对象特征的识别方法。Turney(ACL,2002)提出一种利用非监督学习方法计算词之间的互信息(PMI)来判断整个文档的正负极性。Pang等(ACL,2002)提出采用多种机器学习方法分类每篇电影评论的正负极性。Wiebe等(Computational Linguistics,2004)通过大量数据集学习线索和特征,区分主观观点和客观事实,并在语句级判断观点的正负极性。张长利等(JASIST,2009)提出利用词之间的依赖关系分析中文语句的正负倾向性。Hu等(SIGKDD,2004)利用频繁挖掘算法获得情感对象特征,再利用语义词典确定情感词的正负极性,从而输出针对每个情感对象特征的相关正负评论。
文本中情感类型的识别目前以分类方法为主。Mishne(SIGIR,2005)提出一种基于特征的学习方法分类博文中的情感类型。Alm等(ACL,2005)提出利用与Mishne相似的方法分类叙事文本中的基本情感类型。Mostafa在博士论文(2008)中提出用大量手工标注的数据,基于主要的情感变量,计算语句中几乎所有词的情感变量值,进而计算出整个语句的情感。其中,Mostafa公开的方案不但需要大量人力标注数据,而且不加区分地计算句子中出现的词,因而导致该方法的效率和性能较低。
发明内容
本发明要解决的技术问题是:给定大量的文本数据集,结合情感认知理论,自动识别出文本中所包含的主要情感类型。
为了识别文本中丰富的情感类型,同时尽可能避免手工标注等费时费力的方法,本发明提出了一种基于认知结构模型的文本情感类型识别方法,其包括:
步骤1、对于输入的海量开源文本,基于通用语义词典和句法依存关系,采用统计方法自动构建不同的情感维度词典;其中,每个情感维度词典具有一个确定的情感维度值;
步骤2、对所构建的情感维度词典进行求精得到高质量的情感维度词典,求精具体包括语义、情感倾向的不一致性处理和非情感词的过滤;
步骤3、基于求精后得到的高质量的情感维度词典,结合情感认知结构模型中情感维度值与情感类型的对应关系,生成相应的情感类型。
本发明还公开了一种基于认知结构模型的文本情感类型识别装置,其包括:
情感维度词典构造模块,其用于对于输入的海量开源文本,基于通用语义词典和句法依存关系,采用统计方法自动构建情感维度词典;其中,不同的情感维度词典具有各自的情感维度值;
情感维度词典求精模块,其用于对所构建的情感维度词典进行求精得到高质量的情感维度词典,求精具体包括语义、情感倾向的不一致性处理和非情感词的过滤;
情感类型产生模块,其用于基于求精后得到的高质量的情感维度词典,结合情感认知结构模型中情感维度值与情感类型的对应关系,生成相应的情感类型。
与现有技术相比,本发明提出的基于认知结构模型来识别文本情感类型的方法由于利用了情感的认知结构理论,不但可以输出丰富的情感类型,而且所需标注的数据量非常少。因此,在输出结果的可解释性、使用灵活性及有效性方面较已有方法具有明显的优势。
基于认知心理学领域成熟的情感认知结构模型,自动识别文本中所包含的主要情感类型;
采用统计方法,基于句法依存关系和通用语义词典,通过少量的标注数据自动构建情感维度词典;
赋予文本情感分析更深层次的认知结构关联,从而给情感类型的输出一个更加精细的符合认知心理学模型的合理解释。
附图说明
图1是本发明中基于认知结构模型的文本情感类型的识别方法流程图;
图2是利用本发明提出的文本情感类型生成过程的示例图。
具体实施方式
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院自动化研究所,未经中国科学院自动化研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310363414.6/2.html,转载请声明来源钻瓜专利网。