[发明专利]一种中文短文本情感倾向性分析方法有效

申请号：	202110012984.5	申请日：	2021-01-06
公开（公告）号：	CN112784041B	公开（公告）日：	2022-12-30
发明（设计）人：	李臣明;曹玉成;戴媛媛;陈忠昊;高红民	申请（专利权）人：	河海大学
主分类号：	G06F16/35	分类号：	G06F16/35;G06F40/242;G06F40/289;G06F40/30;G06N3/04;G06Q50/00
代理公司：	南京纵横知识产权代理有限公司 32224	代理人：	何春廷
地址：	211100 江苏***	国省代码：	江苏;32
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种中文文本情感倾向性分析方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开了一种中文短文本情感倾向性分析方法，获取待分析的中文短文本语料集；对中文短文本语料集进行处理得到由基础语义词向量表示的原始文本和由增强情感词向量表示的增强后文本；提取由基础语义词向量表示的原始文本的上下文语义特征；提取由增强情感词向量表示的增强后文本的上下文语义特征；将原始文本的上下文语义特征和增强后文本的上下文语义特征进行拼接，得到最终的情感特征向量；将情感特征向量输入到分类模型，输出对应的情感极性。优点：通过引入情感增强机制，使得文本中的情感特征更为明显，方便后续对其进行特征提取，提高了文本情感分析的准确性。

技术领域

本发明涉及一种中文短文本情感倾向性分析方法，属于自然语言处理与文本情感分析技术领域。

背景技术

现代社会，通过各种设备接入互联网进行娱乐和社交已经在全社会各个阶层和年龄段都普及开来了。当今社会的人们全天24小时保持着在线状态，在各大互联网平台上进行资讯的阅读和转发以及发表自己的见解。在各个社会热点事件中，可以在网络上看到海量的媒体报道和网友发表的见解与评论，这些见解与评论大多以文本形式存在，蕴含着发表者的态度和情绪，针对这些文本进行情感分析可以有效的了解舆论风向，群众呼声，是十分有价值的。

文本情感分析主要是指利用自然语言处理及计算机语言学等技术识别和提取原素材中的主观信息，找出意见发表者在某些话题上的两极观点态度。文本情感分析从粒度上可分为两类：一类是对文本中的某段已知文字进行正(褒)、负(贬)情感极性分类的粗粒度情感分析；另一类是细分的例如“喜悦”、“愤怒”、“生气”、“悲伤”等细粒度情感分析。

目前情感分析的主流的研究方法有三种：基于情感词典、机器学习以及深度学习的方法。基于情感词典的方法需要人工标注并构建情感词典，分析结果与词典质量正相关，而词典的构建费时费力且不具有领域通用性，所以这种方法有着很大的局限性；而机器学习方法需要人工进行文本特征的筛选，如何选择特征对于最终的分类效果有着极大的影响，其效果依赖于初期的特征选取，具有不稳定性。

发明内容

本发明所要解决的技术问题是克服现有技术的缺陷，提供一种中文短文本情感倾向性分析方法。

为解决上述技术问题，本发明提供一种中文短文本情感倾向性分析方法，其特征在于，

获取待分析的中文短文本语料集；

将中文短文本语料集输入到预先构建的情感分类模型，输出对应的情感极性；

所述预先构建的情感分类模型的处理过程包括：

利用预先获取的语言模型对中文短文本语料集进行基础语义处理，得到由基础语义词向量表示的原始文本；

利用预先获取的情感增强词库对中文短文本语料集进行情感增强处理，得到由增强情感词向量表示的增强后文本；

提取由基础语义词向量表示的原始文本的上下文语义特征；

提取由增强情感词向量表示的增强后文本的上下文语义特征；

将原始文本的上下文语义特征和增强后文本的上下文语义特征进行拼接，得到最终的情感特征向量；

将情感特征向量输入到分类模型，输出对应的情感极性。