[发明专利]基于attention CNNs和CCR的文本情感分析方法有效
申请号: | 201710271861.7 | 申请日: | 2017-04-24 |
公开(公告)号: | CN107092596B | 公开(公告)日: | 2020-08-04 |
发明(设计)人: | 张祖凡;邹阳;甘臣权 | 申请(专利权)人: | 重庆邮电大学 |
主分类号: | G06F40/289 | 分类号: | G06F40/289;G06F40/30;G06N3/04;G06N3/08 |
代理公司: | 重庆华科专利事务所 50123 | 代理人: | 康海燕 |
地址: | 400065 *** | 国省代码: | 重庆;50 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 attention cnns ccr 文本 情感 分析 方法 | ||
1.基于结合注意力的卷积神经网络attention CNNs和多模一致回归CCR的文本情感分析方法,其特征在于:
步骤一、首先将原始文本数据分为训练样本及测试样本;然后对原始文本数据进行分词处理得到分词文本,利用分词文本进行语义词向量和情感词向量训练;利用已有情感词典进行词典词向量构建;
步骤二、利用语义词向量、情感词向量和词典词向量分别表示分词文本,得到三种类型初始输入词向量矩阵;利用长短时记忆网络LSTM捕获三种类型初始输入词向量矩阵中每一单词的上下文语义,融入上下文信息后得到三种类型输出词向量矩阵,输出词向量矩阵能够消除单词歧义;
所述三种类型初始输入词向量矩阵包括:初始输入词典词向量矩阵、初始输入语义词向量矩阵和初始输入情感词向量矩阵;所述三种类型输出词向量矩阵包括:输出词典词向量矩阵、输出语义词向量矩阵和输出情感词向量矩阵;
步骤三、利用卷积神经网络CNN并结合不同滤波长度的卷积核提取三种类型输出词向量矩阵的局部特征;
步骤四、利用三种不同的注意力机制,即双向长短时记忆网络注意力机制、注意力采样以及注意力向量分别提取输出语义词向量矩阵和输出情感词向量矩阵的全局特征;
步骤五、对原始文本数据提取人工设计特征;
步骤六、利用所述局部特征、所述全局特征及所述人工设计特征对多模一致回归目标函数进行参数训练;
步骤七、求得多模一致回归最佳参数,通过多模一致回归预测方法对三种类型初始输入词向量矩阵进行正向、中立或者负向情感极性分析。
2.根据权利要求1所述的基于结合注意力的卷积神经网络attention CNNs和多模一致回归CCR的文本情感分析方法,其特征在于:
所述语义词向量训练:采用Skip-gram模型训练语义词向量;该模型从目标词w的上下文c中选择一个词,将上下文c中的一个词作为模型输入,预测目标词w;首先将原始文本数据进行分词处理得到分词文本,然后将分词文本送入Skip-gram模型,通过最大化语义词向量损失函数:
得到语义词向量;其中,Z表示分词处理后的文本,w表示目标词,c表示目标词所对应的上下文,wj表示上下文c中的一个词,j表示上下文c中单词个数,P(wj|w)表示通过目标词w预测wj的概率;
所述情感词向量训练:在Skip-gram模型基础上加入分类层softmaxlayer,用于训练情感词向量;语义部分损失函数与语义词向量相同,情感部分损失函数为
Lsentiment=∑y·log(y_pred)
其中,y_pred=softmax(X)表示预测的情感标签,X表示上述训练得到的语义词向量,y表示真实情感标签;最后将语义词向量损失函数Lsemantic和情感部分损失函数Lsentiment 线性结合得到情感词向量损失函数:其中表示权重因子;通过最小化情感词向量损失函数L得到情感词向量,该向量既包含了语义关系又融入了情感信息;
所述词典词向量构建:情感词典包含一个词的情感得分,不同情感词典得分标准不同;将所有情感词典单词得分归一化到[-1,1],得到词典词向量矩阵。
3.根据权利要求1所述的基于结合注意力的卷积神经网络attention CNNs和多模一致回归CCR的文本情感分析方法,其特征在于,步骤二的具体过程为:原始文本数据经过分词处理后的分词文本利用所得词向量表示,得到三种类型初始输入词向量矩阵D且即D是一个n×di的矩阵,其中n表示句子中单词个数,di表示相应词向量维度,i={1,2,3};所述初始输入语义词向量矩阵表示为初始输入词典词向量矩阵表示为初始输入情感词向量矩阵表示然后,利用双向长短时记忆网络LSTM结构捕获单词的上下文信息用于歧义消除,单词的上文信息向量表示为下文信息向量表示为其中dl和dr分别对应上文和下文信息向量的维度;融入上下文信息后的输出词向量矩阵表示为其中dl+di+dr为融合后的词向量维度;所述输出语义词向量矩阵表示为输出词典词向量矩阵表示为以及输出情感词向量矩阵表示为
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于重庆邮电大学,未经重庆邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710271861.7/1.html,转载请声明来源钻瓜专利网。
- 上一篇:新的关键词提取技术
- 下一篇:一种目标对象的搜索、推荐方法和设备