[发明专利]一种中文短文本情感倾向性分析方法有效
申请号: | 202110012984.5 | 申请日: | 2021-01-06 |
公开(公告)号: | CN112784041B | 公开(公告)日: | 2022-12-30 |
发明(设计)人: | 李臣明;曹玉成;戴媛媛;陈忠昊;高红民 | 申请(专利权)人: | 河海大学 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F40/242;G06F40/289;G06F40/30;G06N3/04;G06Q50/00 |
代理公司: | 南京纵横知识产权代理有限公司 32224 | 代理人: | 何春廷 |
地址: | 211100 江苏*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 中文 文本 情感 倾向性 分析 方法 | ||
本发明公开了一种中文短文本情感倾向性分析方法,获取待分析的中文短文本语料集;对中文短文本语料集进行处理得到由基础语义词向量表示的原始文本和由增强情感词向量表示的增强后文本;提取由基础语义词向量表示的原始文本的上下文语义特征;提取由增强情感词向量表示的增强后文本的上下文语义特征;将原始文本的上下文语义特征和增强后文本的上下文语义特征进行拼接,得到最终的情感特征向量;将情感特征向量输入到分类模型,输出对应的情感极性。优点:通过引入情感增强机制,使得文本中的情感特征更为明显,方便后续对其进行特征提取,提高了文本情感分析的准确性。
技术领域
本发明涉及一种中文短文本情感倾向性分析方法,属于自然语言处理与文本情感分析技术领域。
背景技术
现代社会,通过各种设备接入互联网进行娱乐和社交已经在全社会各个阶层和年龄段都普及开来了。当今社会的人们全天24小时保持着在线状态,在各大互联网平台上进行资讯的阅读和转发以及发表自己的见解。在各个社会热点事件中,可以在网络上看到海量的媒体报道和网友发表的见解与评论,这些见解与评论大多以文本形式存在,蕴含着发表者的态度和情绪,针对这些文本进行情感分析可以有效的了解舆论风向,群众呼声,是十分有价值的。
文本情感分析主要是指利用自然语言处理及计算机语言学等技术识别和提取原素材中的主观信息,找出意见发表者在某些话题上的两极观点态度。文本情感分析从粒度上可分为两类:一类是对文本中的某段已知文字进行正(褒)、负(贬)情感极性分类的粗粒度情感分析;另一类是细分的例如“喜悦”、“愤怒”、“生气”、“悲伤”等细粒度情感分析。
目前情感分析的主流的研究方法有三种:基于情感词典、机器学习以及深度学习的方法。基于情感词典的方法需要人工标注并构建情感词典,分析结果与词典质量正相关,而词典的构建费时费力且不具有领域通用性,所以这种方法有着很大的局限性;而机器学习方法需要人工进行文本特征的筛选,如何选择特征对于最终的分类效果有着极大的影响,其效果依赖于初期的特征选取,具有不稳定性。
发明内容
本发明所要解决的技术问题是克服现有技术的缺陷,提供一种中文短文本情感倾向性分析方法。
为解决上述技术问题,本发明提供一种中文短文本情感倾向性分析方法,其特征在于,
获取待分析的中文短文本语料集;
将中文短文本语料集输入到预先构建的情感分类模型,输出对应的情感极性;
所述预先构建的情感分类模型的处理过程包括:
利用预先获取的语言模型对中文短文本语料集进行基础语义处理,得到由基础语义词向量表示的原始文本;
利用预先获取的情感增强词库对中文短文本语料集进行情感增强处理,得到由增强情感词向量表示的增强后文本;
提取由基础语义词向量表示的原始文本的上下文语义特征;
提取由增强情感词向量表示的增强后文本的上下文语义特征;
将原始文本的上下文语义特征和增强后文本的上下文语义特征进行拼接,得到最终的情感特征向量;
将情感特征向量输入到分类模型,输出对应的情感极性。
进一步的,所述语言模型采用Bert-wmm(基于全词遮罩的预训练语言模型 Bert)语言模型。
进一步的,所述利用预先获取的情感增强词库对中文短文本语料集进行情感增强处理,得到由增强情感词向量表示的增强后文本的过程包括:
利用预先获取的情感增强词库对中文短文本语料集根据如下过程进行情感增强:
遍历中文短文本语料集;
若遍历到的中文短文本语料集的当前词语为情感词,直接将该词语加入到该词语所在句子的末尾;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于河海大学,未经河海大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110012984.5/2.html,转载请声明来源钻瓜专利网。