[发明专利]一种基于情感词嵌入的细粒度情绪分析改进方法有效
申请号: | 201910182419.6 | 申请日: | 2019-03-12 |
公开(公告)号: | CN109933664B | 公开(公告)日: | 2021-09-07 |
发明(设计)人: | 李芳芳;畅帅;毛星亮;施荣华;石金晶;胡超 | 申请(专利权)人: | 中南大学 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F40/289;G06F40/30;G06F40/242 |
代理公司: | 长沙市融智专利事务所(普通合伙) 43114 | 代理人: | 欧阳迪奇 |
地址: | 410083 湖南*** | 国省代码: | 湖南;43 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 情感 嵌入 细粒度 情绪 分析 改进 方法 | ||
1.一种基于情感词嵌入的细粒度情绪分析改进方法,其特征在于,包括以下步骤:
步骤一:文本数据集的获取、人工标注及预处理:首先,获取用于情绪分析的文本数据集作为情绪分析模型的训练数据集,并对文本数据集中的单个句子进行人工标注;然后,对文本数据集进行预处理,预处理后的文本数据集被表示为单词的集合;
步骤二:计算文本数据集中每个单词对应的语义词向量:搜集用于训练词向量模型的大规模语料,并利用词向量工具对该语料进行训练得到词向量模型,然后利用该模型对步骤一得到的集合中的每个单词进行词向量表示,进而得到每个单词对应的一个语义词向量;
步骤三:获取情感词集合:搜集中文情感词典,并基于步骤二中得到的语义词向量,逐一筛选符合条件的情感词,得到筛选后的情感词集合;
步骤四:计算训练数据集中每个单词对应的一组情感词组:基于步骤三中得到的情感词集合,为步骤一中训练数据集的每个单词选取一组对应的情感词组,该情感词组在语义上和情感极性上都与该单词最为相似;
步骤五:计算训练数据集中每个单词对应的情绪词向量:基于步骤四中得到的每个单词对应的一组情感词组,对该情感词组的语义词向量进行修正,并在修正后的语义词向量基础上,构建情绪词向量;
步骤六:构建训练数据集中每个单词对应的情感词嵌入:基于步骤二中单词对应的语义词向量,以及步骤五中单词对应的情绪词向量,构建该单词的情感词嵌入,最后得到训练数据集的情感词嵌入;
步骤七:训练分类器得到细粒度情绪分析模型:将训练数据集的情感词嵌入作为分类器的输入,训练分类器,得到细粒度情绪分析模型;
所述的步骤五,具体为采用如下步骤:
A、首先,基于步骤二中得到的词向量模型,对步骤四中得到的情感词组中的每个情感词进行语义词向量表示;
B、由于在情感上完全相反的两个单词可能在词向量空间中反而具有相当高的余弦相似度,故对情感词组的语义词向量进行修正:
对于某单词和对应的一组情感词组,其情感词组的语义词向量的修正步骤如下:基于该情感词组的语义词向量构建表示相似情感词组的语义词向量与经过修正后的语义词向量之间的距离之和的目标函数,然后,通过最小化目标函数,求解情感词组经过修正后的语义词向量,进一步地具体如下:
设V={V(1),V(2)...,V(n)}为该情感词组对应的语义词向量空间,X为该情感词组经过修正后的语义词向量,目标函数被定义为:
其中,n表示情感词组中情感词的个数,Vi(i)表示第i个情感词对应的语义词向量的第j个维度,Xj表示向量X的第j个维度,k为语义词向量的维度;
求解目标函数:在此选择拟牛顿法进行求解,该方法使得修正后的词向量距离修正前的词向量以及相似情感词的词向量之间的距离之和最小;
C、最后,在该修正后的语义词向量空间基础上,构建情绪词向量,具体步骤如下:对修正后的语义词向量进行加权平均,构造修正后的语义词向量的情绪词向量:
以X={X(1),X(2),...X(m)}为修正后的语义词向量,其中X(i)(1im)表示第i个情感词对应的语义词向量,αi为给每个语义词向量赋予的权重,权重根据其情感词的情感强度以及与目标单词的相似度进行赋值,则为目标单词t构建的情绪词向量Et为:
其中,m为词向量个数;上述步骤在具体计算过程中,还需对αi进行归一化处理,用归一化后的向量权重α′i参与运算,标准化公式如下:
所述的步骤六,具体为采用如下步骤:
当语义词向量与情绪词向量具有不同的维度时,则将语义词向量与情绪词向量直接连接进行结合;
当语义词向量与情绪词向量具有相同的维度时,则将语义词向量与情绪词向量相加进行结合。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中南大学,未经中南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910182419.6/1.html,转载请声明来源钻瓜专利网。
- 上一篇:基于embedding方法的意图识别算法
- 下一篇:评论识别的装置和方法