[发明专利]一种基于Tree-LSTM和情感信息的短文本情感分类方法有效
申请号: | 201910748149.0 | 申请日: | 2019-08-14 |
公开(公告)号: | CN110472244B | 公开(公告)日: | 2020-05-29 |
发明(设计)人: | 李玉军;张文真;马宝森;胡伟凤;李泽强;邓媛洁 | 申请(专利权)人: | 山东大学 |
主分类号: | G06F40/289 | 分类号: | G06F40/289;G06F40/30;G06K9/62;G06N3/04;G06N3/08 |
代理公司: | 济南金迪知识产权代理有限公司 37219 | 代理人: | 许德山 |
地址: | 250199 山*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 tree lstm 情感 信息 文本 分类 方法 | ||
1.一种基于Tree-LSTM和情感信息的短文本情感分类方法,其特征在于,包括步骤如下:
(1)构建四类情感信息词典;四类情感信息词典包括情感词典、否定词词典、程度副词词典和连词词典;
(2)数据预处理:对数据进行预处理,并确定每段文本包含的情感信息词及其位置信息;
(3)根据不同的情感信息词的作用改进Tree-LSTM模型;
所述步骤(3)中,根据不同的情感信息词的作用改进Tree-LSTM模型,是指:
Tree-LSTM模型为二元Tree-LSTM,又被称为选区Tree-LSTM;
根据四类词典划定了五种情况,即短文本中包含的词语分别为无情感信息词、情感词、否定词、程度副词、连词,将这五种情况的影响抽象成KL散度,利用正则化方法加入到Tree-LSTM模型的损失函数,从而将情感信息融入到神经网络中;
当二元Tree-LSTM应用于短语级标注的短文本时,二元Tree-LSTM的损失函数如式(Ⅰ)、(Ⅱ)所示:
pk=softmax(Whk+b) (Ⅱ)
式(Ⅰ)、(Ⅱ)中,J(θ)是Tree-LSTM模型的总损失,是树状短文本i的情感黄金分布,yi是Tree-LSTM模型预测的情感分布,m是树状短文本i中有标签的节点个数,是树状短文本i中k节点的情感黄金分布,k是树状短文本i的根节点,pk是Tree-LSTM预测的k节点的情感分布,即k节点隐藏层的输出经过归一化的结果,softmax()是k节点隐藏层最后输出时的激活函数,W是k节点隐藏层激活函数的权重,hk是k节点隐藏层的输出,b是k节点隐藏层优化函数的偏置项,β是加入的防止过拟合的正则器的正则化系数,θ是对应的参数向量;
在Tree-LSTM模型中加入两个正则器,对应的损失函数J’(θ)如式(Ⅲ)所示:
式(Ⅲ)中,Lk,i和L′k,i是加入到树状短文本i中的两个正则器,正则器Lk,i与二元Tree-LSTM的正则器相似,正则器L′k,i将利用根节点的标签,n是树状短文本i加入正则器Lk,i的数量,α和α’是两个正则器对应的权重;
当树状短文本i没有根节点的情感标签时,公式(Ⅰ)、(Ⅲ)中的m均为0,此时的二元Tree-LSTM应用于句子级标注的短文本情感分类的损失函数J‘’(θ)、加入正则器后的损失函数J‘’‘(θ)分别如式(Ⅳ)、式(Ⅴ)所示:
式(Ⅳ)、(Ⅴ)中,Lk,i是加入到树状短文本中的正则器,k是树状短文本的根节点,n是树状短文本i加入正则器Lk,i的数量,α是正则器的权重;
(4)对步骤(2)预处理后的数据进行特征提取;
(5)训练模型,将步骤(2)预处理后的数据打乱后,分成训练集和测试集,运用不放回的方式随机抽取训练集中的N条数据做训练,循环多次后,使用测试集的数据测试实验结果的准确性,最终得到实验结果。
2.根据权利要求1所述的一种基于Tree-LSTM和情感信息的短文本情感分类方法,其特征在于,所述步骤(1)中,构建情感词典,是指:情感词典包括MPQA词典及SST数据集所有叶节点接收到的情感词,MPQA词典共有6732个单词,其中有6305个情感类词语,SST数据集的叶节点有22348个带有情感分布的词语,其中有9717个情感类词语,将MPQA词典的情感类词语及SST数据集的情感类词语进行去重整合后,得到包括13206个情感类词语的词典,即情感词典,且每一个词都有情感分布标签;
构建否定词词典、程度副词词典和连词词典,是指:采用人工统计的方式建立否定词词典、程度副词词典和连词词典。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于山东大学,未经山东大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910748149.0/1.html,转载请声明来源钻瓜专利网。