[发明专利]一种情绪文本的情绪特征确定方法及装置在审
申请号: | 201410571054.3 | 申请日: | 2014-10-23 |
公开(公告)号: | CN104346326A | 公开(公告)日: | 2015-02-11 |
发明(设计)人: | 李寿山;刘欢欢;周国栋;段湘煜 | 申请(专利权)人: | 苏州大学 |
主分类号: | G06F17/28 | 分类号: | G06F17/28;G06F17/30;G06F17/27 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 常亮 |
地址: | 215137 *** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 情绪 文本 特征 确定 方法 装置 | ||
技术领域
本发明涉及自然语言处理技术领域,尤其是一种情绪词文本的情绪特征确定方法及装置。
背景技术
当今,互联网已经成为信息的重要载体,尤其是近些年,随着电子商务及社交网站的兴起,互联网上出现了大量的评论,评论中一般包含情绪词,包含情绪词的文本可以称为情绪文本。研究情绪文本的情绪信息有助于了解和分析人们对事物或事件的观点态度,例如,包含开心、高兴等情绪词的文本表达的是对事物或事件的支持,相反,包含生气、烦恼等情绪词的文本标的是反对。在此背景下,情绪分析正逐渐称为自然语言处理领域中一项越来越受关注的研究课题。
目前,利用现有的情绪词表对情绪文本的情绪进行确定,即若情绪文本中出现了情绪词表中的某个情绪词,则认为该情绪文本具有该类情绪特征。例如,情绪文本出现了情绪词表中包含的“开心”,则确定该文本具有“开心”的情绪特征。
然而,现实的情绪文本中经常存在情绪隐藏的情况,即虽然情绪文本中出现了某个情绪词,但并未真正表达该情绪,例如“要是你在的话,她可能就开心了”。因此,利用现有的情绪确定方法确定出来的情绪特征存在误差,准确性较差。
发明内容
有鉴于此,本发明提供了一种情绪文本的情绪特征确定方法及装置,用以解决现有技术中的情绪特征确定方法准确性较差的技术问题。为实现所述发明目的,本发明提供的技术方案如下:
一种情绪文本的情绪特征确定方法,包括:
在情绪文本集合中,确定待确定情绪文本;其中,所述待确定情绪文本为包含目标情绪词的情绪文本;
在所述待确定情绪文本中,提取所述情绪词的特征词集合;其中,所述特征词集合包含的是与所述情绪词具有上下文关联关系的特征词语;
依据所述情绪文本集合及所述特征词集合,生成分类器;
利用所述分类器对所述待确定情绪文本进行分类,获得分类结果;
依据所述分类结果,确定所述待确定情绪文本的情绪特征;其中,所述情绪特征为情绪发生或情绪隐藏。
可选地,上述的情绪文本的情绪特征确定方法,所述依据所述情绪文本集合及所述特征词集合,生成分类器,包括:
对所述情绪文本集合中的部分情绪文本进行标注,获得训练集;其中,所述标注为正标注或负标注;
利用所述训练集对所述特征词集合进行训练,获得分类器。
可选地,上述的情绪文本的情绪特征确定方法,所述利用所述训练集对所述特征词集合进行训练,获得分类器,包括:
依据所述正标注及所述负标注,将所述训练集划分为正负两个训练子集;
针对所述特征词集合中每个特征词,计算分别在所述正负两个训练子集中出现的概率,获得贝叶斯分类器。
可选地,上述的情绪文本的情绪特征确定方法,所述贝叶斯分类器包含预设先验概率及正负两个训练子集各自对应的概率;
其中,所述利用所述分类器对所述待确定情绪文本进行分类,获得分类结果,包括:
利用所述预设先验概率及正训练子集对应的概率,计算第一后验概率正分类值;
利用所述预设先验概率及负训练子集对应的概率,计算第二后验概率负分类值;
将所述正分类值第一后验概率及所述负分类值第二后验概率中的较大值确定为分类结果。
可选地,上述的情绪文本的情绪特征确定方法,所述依据所述分类结果,确定所述待确定情绪文本的情绪特征,包括:
当所述分类结果为正分类值第一后验概率时,确定所述待确定情绪文本的情绪特征为情绪发生;
当所述分类结果为负分类值第二后验概率时,确定所述待确定情绪文本的情绪特征为情绪隐藏。
可选地,上述的情绪文本的情绪特征确定方法,所述特征词集合包括:段落特征词集合、句子特征词集合、子句特征词集合及关键词集合中的任意一个或多个的组合;其中:
所述段落特征词集合包含的是与所述情绪词在同一段落的词语;
所述句子特征词集合包含的是与所述情绪词在同一句子的词语;
所述子句特征词集合包含的是与所述情绪词在同一子句的词语;
所述关键词集合包含的是表达预设假设含义的词语。
本申请还提供了一种情绪文本的情绪特征确定装置,包括:
情绪文本确定模块,用于在情绪文本集合中,确定待确定情绪文本;其中,所述待确定情绪文本为包含目标情绪词的情绪文本;
特征词提取模块,用于在所述待确定情绪文本中,提取所述情绪词的特征词集合;其中,所述特征词集合包含的是与所述情绪词具有上下文关联关系的特征词语;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于苏州大学,未经苏州大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410571054.3/2.html,转载请声明来源钻瓜专利网。