[发明专利]一种基于最大熵模型的评价类型情绪分类方法及系统在审

申请号：	201510530734.5	申请日：	2015-08-26
公开（公告）号：	CN105005560A	公开（公告）日：	2015-10-28
发明（设计）人：	陈敬;李寿山;周国栋	申请（专利权）人：	苏州大学张家港工业技术研究院
主分类号：	G06F17/27	分类号：	G06F17/27
代理公司：	北京集佳知识产权代理有限公司 11227	代理人：	罗满
地址：	215600 江***	国省代码：	江苏;32
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于最大模型评价类型情绪分类方法系统
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

技术领域

本发明涉及信息抽取及模式识别技术领域，特别是涉及一种基于最大熵模型的评价类型情绪分类方法及系统。

背景技术

当今，随着互联网的高速发展和信息高速公路的兴起，网络信息数据不断增加，从而使得大量的信息以电子文本的形式呈现在人们面前。因此，如何从这些大量的信息中迅速、准确地提取出人们所需求的重要信息就越发重要。

信息抽取是从文本中自动获取信息的一种主要手段。信息抽取是将无结构的文本信息，按照人们的需求识别和抽取出来，转化为结构化或半结构化的信息，并采用数据库的形式存储，以便人们查询和进一步的分析、利用。在当今的日常生活中，我们将对评价对象的某段评价语句称为评价语料，评价语料中通常会包含着positive(积极)、negative(消极)、neutral(中立)、conflict(抵触)等等情绪类型。评价对象的类型(简称评价类型)包括food(食物)、service(服务)、price(价格)、Ambience(环境氛围)、anecdotes(趣闻轶事)/miscellaneous(其它方面)等等。举个例子，下面是一个评价语料：All the money went into the interior decoration(室内装修，归为环境氛围类型),none of it went to the chefs(厨师，归为食品类型)。该评价语料中有2个评价类型，分别为ambience、food，其中，ambience对应的情绪为positive，而food对应的情绪为negative。

目前，评价类型情绪分类方法大多是都是基于机器学习的方法，即使用统计的方法进行研究，其主要还是基于全监督的学习方法，这种方法把评价类型的情绪判别看成分类问题，选择合适的特征并使用合适的分类器来完成。基于机器学习的方法有效智能，但是却存在不能充分利用上下文信息，特征无法全局归一化等缺点，降低了分类性能。

发明内容

有鉴于此，本发明提供了一种基于最大熵模型的评价类型情绪分类方法及系统，以达到充分利用上下文信息，特征全局化，进而提高分类性能的目的。

为解决上述技术问题，本发明提供一种基于最大熵模型的评价类型情绪分类方法，包括：

获取原始评价语料，并从所述原始评价语料中提取特征信息集，所述特征信息集包括词特征、词性特征、评价对象特征及情感特征；

将所述特征信息集中各类特征进行融合，处理得到可用语料；所述可用语料的语料格式与最大熵模型相匹配；

将所述可用语料划分为训练语料和测试语料，利用所述训练语料训练最大熵模型，得到情绪分类模型；

将所述测试语料输入所述情绪分类模型，对所述测试语料中评价类型的情绪进行分类，得到情绪分类结果；

其中，所述评价类型包括食物、服务及价格。

优选的，利用Stanford工具从所述原始评价语料中提取所述词性特征。

优选的，结合预设情感字典从所述原始评价语料中提取所述情感特征。

本发明还提供了一种基于最大熵模型的评价类型情绪分类系统，包括：

特征信息集提取单元，用于获取原始评价语料，并从所述原始评价语料中提取特征信息集，所述特征信息集包括词特征、词性特征、评价对象特征及情感特征；

可用预料确定单元，用于将所述特征信息集中各类特征进行融合，处理得到可用语料；所述可用语料的语料格式与最大熵模型相匹配；

训练单元，用于将所述可用语料划分为训练语料和测试语料，利用所述训练语料训练最大熵模型，得到情绪分类模型；

情绪分类单元，用于将所述测试语料输入所述情绪分类模型，对所述测试语料中评价类型的情绪进行分类，得到情绪分类结果；

其中，所述评价类型包括食物、服务及价格。

以上本发明提供的技术方案中，使用最大熵模型，充分利用了上下文信息，建立一个统一的概率模型，提高了评价类型情绪分类的性能，具体包括：首先，获取原始评价语料，并从原始评价语料中提取特征信息集；然后，将特征信息集中各类特征进行融合，处理得到可用语料，这个可用语料的语料格式与最大熵模型相匹配；其次，将可用语料划分为训练语料和测试语料，利用训练语料训练最大熵模型，得到情绪分类模型；最后将测试语料输入情绪分类模型，对测试语料中评价类型的情绪进行分类，得到情绪分类结果，达到了充分利用上下文信息，特征全局化，进而提高分类性能的目的。

附图说明

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于苏州大学张家港工业技术研究院，未经苏州大学张家港工业技术研究院许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201510530734.5/2.html，转载请声明来源钻瓜专利网。

上一篇：一种基于语料库的双语检索统计翻译系统
下一篇：一种串行通信数据校验方法

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理
G06F17-00 特别适用于特定功能的数字计算设备或数据处理设备或数据处理方法
G06F17-10 .复杂数学运算的
G06F17-20 .处理自然语言数据的
G06F17-30 .信息检索；及其数据库结构
G06F17-40 .数据的获取和记录
G06F17-50 .计算机辅助设计

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于最大熵模型的评价类型情绪分类方法及系统在审

专利文献下载