[发明专利]一种基于Tree-LSTM和情感信息的短文本情感分类方法有效

专利信息
申请号: 201910748149.0 申请日: 2019-08-14
公开(公告)号: CN110472244B 公开(公告)日: 2020-05-29
发明(设计)人: 李玉军;张文真;马宝森;胡伟凤;李泽强;邓媛洁 申请(专利权)人: 山东大学
主分类号: G06F40/289 分类号: G06F40/289;G06F40/30;G06K9/62;G06N3/04;G06N3/08
代理公司: 济南金迪知识产权代理有限公司 37219 代理人: 许德山
地址: 250199 山*** 国省代码: 山东;37
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 tree lstm 情感 信息 文本 分类 方法
【权利要求书】:

1.一种基于Tree-LSTM和情感信息的短文本情感分类方法,其特征在于,包括步骤如下:

(1)构建四类情感信息词典;四类情感信息词典包括情感词典、否定词词典、程度副词词典和连词词典;

(2)数据预处理:对数据进行预处理,并确定每段文本包含的情感信息词及其位置信息;

(3)根据不同的情感信息词的作用改进Tree-LSTM模型;

所述步骤(3)中,根据不同的情感信息词的作用改进Tree-LSTM模型,是指:

Tree-LSTM模型为二元Tree-LSTM,又被称为选区Tree-LSTM;

根据四类词典划定了五种情况,即短文本中包含的词语分别为无情感信息词、情感词、否定词、程度副词、连词,将这五种情况的影响抽象成KL散度,利用正则化方法加入到Tree-LSTM模型的损失函数,从而将情感信息融入到神经网络中;

当二元Tree-LSTM应用于短语级标注的短文本时,二元Tree-LSTM的损失函数如式(Ⅰ)、(Ⅱ)所示:

pk=softmax(Whk+b) (Ⅱ)

式(Ⅰ)、(Ⅱ)中,J(θ)是Tree-LSTM模型的总损失,是树状短文本i的情感黄金分布,yi是Tree-LSTM模型预测的情感分布,m是树状短文本i中有标签的节点个数,是树状短文本i中k节点的情感黄金分布,k是树状短文本i的根节点,pk是Tree-LSTM预测的k节点的情感分布,即k节点隐藏层的输出经过归一化的结果,softmax()是k节点隐藏层最后输出时的激活函数,W是k节点隐藏层激活函数的权重,hk是k节点隐藏层的输出,b是k节点隐藏层优化函数的偏置项,β是加入的防止过拟合的正则器的正则化系数,θ是对应的参数向量;

在Tree-LSTM模型中加入两个正则器,对应的损失函数J’(θ)如式(Ⅲ)所示:

式(Ⅲ)中,Lk,i和L′k,i是加入到树状短文本i中的两个正则器,正则器Lk,i与二元Tree-LSTM的正则器相似,正则器L′k,i将利用根节点的标签,n是树状短文本i加入正则器Lk,i的数量,α和α’是两个正则器对应的权重;

当树状短文本i没有根节点的情感标签时,公式(Ⅰ)、(Ⅲ)中的m均为0,此时的二元Tree-LSTM应用于句子级标注的短文本情感分类的损失函数J‘’(θ)、加入正则器后的损失函数J‘’‘(θ)分别如式(Ⅳ)、式(Ⅴ)所示:

式(Ⅳ)、(Ⅴ)中,Lk,i是加入到树状短文本中的正则器,k是树状短文本的根节点,n是树状短文本i加入正则器Lk,i的数量,α是正则器的权重;

(4)对步骤(2)预处理后的数据进行特征提取;

(5)训练模型,将步骤(2)预处理后的数据打乱后,分成训练集和测试集,运用不放回的方式随机抽取训练集中的N条数据做训练,循环多次后,使用测试集的数据测试实验结果的准确性,最终得到实验结果。

2.根据权利要求1所述的一种基于Tree-LSTM和情感信息的短文本情感分类方法,其特征在于,所述步骤(1)中,构建情感词典,是指:情感词典包括MPQA词典及SST数据集所有叶节点接收到的情感词,MPQA词典共有6732个单词,其中有6305个情感类词语,SST数据集的叶节点有22348个带有情感分布的词语,其中有9717个情感类词语,将MPQA词典的情感类词语及SST数据集的情感类词语进行去重整合后,得到包括13206个情感类词语的词典,即情感词典,且每一个词都有情感分布标签;

构建否定词词典、程度副词词典和连词词典,是指:采用人工统计的方式建立否定词词典、程度副词词典和连词词典。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于山东大学,未经山东大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201910748149.0/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top