[发明专利]基于关键句的多语言情感数据处理分类方法及系统在审
申请号: | 201410198519.5 | 申请日: | 2014-05-12 |
公开(公告)号: | CN103995853A | 公开(公告)日: | 2014-08-20 |
发明(设计)人: | 程学旗;林政;张瑾;谭松波;徐学可 | 申请(专利权)人: | 中国科学院计算技术研究所 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京律诚同业知识产权代理有限公司 11006 | 代理人: | 祁建国;梁挥 |
地址: | 100190 北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 关键 语言 情感 数据处理 分类 方法 系统 | ||
技术领域
本发明涉及文本情感数据分析,尤其是涉及一种基于关键句的多语言情感数据处理分类方法及系统。
背景技术
随着论坛、博客、评论、微博等网络交流平台不断涌现,人们越来越习惯于在网上发表主观性评论,这些评论用于表达人们对于日常事件、产品、政策等观点和看法。与此同时,随着全球化进程的加快,网络所提供的信息资源呈现出多语言化的特点。情感分类是一种将文本按照所表达的情感极性分为褒贬的分类任务;多语言情感分类是指利用源语言对其他语言进行情感分类。多语言情感分类,旨在借助最少的资源,研究多语言情感文本所蕴含的观点、看法和态度,不仅可以参考全球用户对商品的评价以做出合理的购买决定,而且可以更加及时地了解全世界各国的网络民意。
目前,多语言情感数据分析主要面临两个难点问题,分别是跨语言翻译过程中出现的语言迁移和情感数据分析的双重难点问题。
对于语言迁移,主要采用以下两种方法:
借助统计机器翻译系统来进行跨语言情感数据分类器迁移。一方面,可以将有标注的源语言数据集翻译成目标语言,然后在翻译后的训练语料上训练分类器对测试集进行判别;另一方面,可以将目标语言测试集翻译成源语言,然后直接应用在源语言上训练的分类器。然而,基于机器翻译的方法会损失跨语言情感分析的精度。一方面,机器翻译系统生成唯一解,所以翻译未必正确;另一方面,机器翻译系统依赖于训练集,当目标语言的领域与训练集相差较大时性能不佳。
借助双语词典来进行跨语言情感数据分类器迁移。在有监督学习中,可以先在源语言上学习情感数据分类器,然后借助双语词典将特征空间翻译成目标语言;在无监督学习中,可以将源语言的情感词典通过双语词典翻译成目标语言。然而,大部分基于双语词典的工作在选取翻译词的时候没有考虑情感词的上下文依赖关系。此外,情感词的极性(支持或反对)具有领域依赖性,面对不同实体会表现出不同极性,所以将通用的情感词典用于特定领域往往性能不佳。
对于情感数据分析,主要采用以下三种方法:
在有监督学习的方法中,文本的情感倾向性分析可以看成文本分类过程,借助朴素贝叶斯、最大熵、支持向量机等机器学习的方法对文本倾向性进行判别。以机器学习方法为基础,还可以进行特征融合或者特征约简,以进一步提高情感数据分类的性能。
在无监督学习的方法中,情感数据分析在没有任何标注数据的条件下进行。经典的做法是:首先对文本进行词性标注,按照预定义的规则选取形容词和副词的某些搭配,然后计算每一个搭配与一对极性相反的情感词,比如excellent(好)和poor(差)的互信息之差,最后对一个文本所有搭配的互信息差进行求和以判断其情感类别。
在半监督学习的方法中,大量无标注数据与少量有标注数据相结合。半监督学习可以减少有监督学习对标注样本的依赖,可以取得比无监督学习更好的性能,是一种折中的方法。
然而,以往的情感分析方法并没有解决评论文本中情感歧义对情感数据分类的干扰问题。情感数据分类和普通文本分类有些类似,但比普通文本分类更复杂。在基于主题的文本分类中,因为主题不同的文本之间词语运用不同,词语的领域相关性使得不同主题的文本可以很好的进行区分。然而,情感数据分类的正确率比基于主题的文本分类低很多,这主要是由情感文本中复杂的情感表达和大量的情感歧义造成的。此外,在一篇文章中,客观句子与主观句子可能相互交错,或者一个主观句子同时具有两种以上情感,因此文本情感数据分类是一项非常复杂的任务。这里,以一篇网络上的图书评论为例:
“很多人说这是一个充满悲伤、流溢无奈的故事,或许正是这种评论让我一直没有勇气去认真阅读。我趁人自己是个沦落俗套的人,虽然被拒让人震撼而且极易深刻,但从感情上更愿意看到美好的大团圆结局,虽然这样的通话在显示中是如此脆弱而不堪一击。
……这本书,我是一口气看完的,很喜欢。”
文中作者用了大量消极的词汇来描述阅读前的感受,比如“悲伤”和“脆弱”,但是在文章结尾,作者又用很积极的态度表达了他是喜欢这本书的。在这个例子中,整篇文本的极性是正面的,但由于出现大量负面词汇所以很容易被判别成负面的。在判定整篇文章的极性时,文章中所有句子的情感贡献度是不同的,如果对情感表达关键句和描述细节的句子进行区分,将有助于提高文本情感数据分类的性能。
综上所述,多语言的情感倾向性分析主要存在以下两个问题:
(1)多语言情感分析过于依赖外部资源
大部分多语言情感分析技术是依赖于机器翻译或者双语词典的。如果没有机器翻译系统或编纂好的双语词典,多语言情感分析的工作将很难进行。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院计算技术研究所,未经中国科学院计算技术研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410198519.5/2.html,转载请声明来源钻瓜专利网。