[发明专利]基于GRU的属性级别情感分析方法在审

专利信息
申请号: 201910459539.6 申请日: 2019-05-29
公开(公告)号: CN111353040A 公开(公告)日: 2020-06-30
发明(设计)人: 邢永平;禹晶;肖创柏 申请(专利权)人: 北京工业大学
主分类号: G06F16/35 分类号: G06F16/35;G06K9/62
代理公司: 北京思海天达知识产权代理有限公司 11203 代理人: 沈波
地址: 100124 *** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 基于 gru 属性 级别 情感 分析 方法
【权利要求书】:

1.基于GRU网络的属性级情感分析模型,其特征在于:模型包括五个部分即输入层、嵌入层、GRU层、attention层和输出层;输入层将短文本即句子输入到模型中;嵌入层将句子中的每一个词映射成一个向量;GRU层利用从词嵌入中来获取特征信息;attention层实现注意力机制,它将会通过权重计算把词一级的特征信息融合成句子级的特征信息而产生一个句子特征向量;最终将句子特征向量进行分类;

1.1输入层

在输入层输入每一个需要进行情感极性分类的句子,假设句子长度为T,则句子表示为s={x1,x2,...,xT},xi表示句子中的第i个单词;

1.2嵌入层

在从输入层获得的一个包含T个词的句子s={x1,x2,...,xT},后每一个词在嵌入层得到其对应的词向量ei

首先从词嵌入矩阵中获得每一个词的词向量,这里V是词表的长度,dw是可以指定的词向量维数,则有

embi=Wwrdvi (1)

其中vi是一个长度为|V|的向量,其中在i处为1,其他处为0;同样得出aspect的词向量embasp,当句子中aspect为多个单词的时候,将每个单词的词向量相同维度的值加起来得到aspect的词向量;然后将embi和embasp拼接起来得到最终的词向量ei

ei=[embi:embasp] (2)

最后将e={e1,e2,...,eT}输入到下一层;

1.3 GRU层

在GRU层中,将会以属性为分界点,将句子分为左右部分去对属性上下文建模,其中{xl+1,xl+2,...,xr-1}表示aspect,{x1,x2,...,xl}表示句子中属性以前的单词,{xr-1,xr-2,...,xT}表示属性以后的单词;将左右两个序列输入到左右两个网络后隐藏层分别得到{h1,h2,...,hr-1}和{hl+1,hl+2,...,hT};

1.4 attention层

在这个模型中引入注意力机制来获得更好的分类效果,这是由于句子中前后两部分的不同词和属性有不同的联系,将更多的来关注和属性联系紧密的信息;注意力机制的实现如下:

at=softmax(wTM) (4)

r=Hat (5)

这里at表示的是注意力权重系数,表示重复easp多次至和H的维度保持一致,H是模型中隐藏层输出组成的矩阵,r表示的是加权后的表示句子含义的向量,Wh、Wv、w是参数矩阵,然后得到能够最终表针句子信息的向量o

o=tanh(Wpr+Wxh) (6)

h表示hr-1和hl+1向量的和;

1.5输出层

最后将注意力层的输出o输入到分类器

实现情感的极性分类,其中Wo和bo是要训练得到的参数矩阵。

2.基于GRU的属性级别情感分析方法,其特征在于:本方法的具体步骤如下:

步骤S1、首先将所用的收集于推特的数据集输入到Att-CGRU模型的输入层;

步骤S2、将S1得到的数据输入到嵌入层,得到输入句子中每个词的词向量,

步骤S3、在GRU层中通过S2的方式得到句子中每个词的词向量后,以属性词{xl+1,xl+2,...,xr-1}为分界点将左边{x1,x2,...,xl}单词的词向量和右边{xr-1,xr-2,...,xT}单词的词向量输入到两个左右两个GRU网络分别对属性词的上下文建模,从隐藏层分别得到输出{h1,h2,...,hr-1}和{hl+1,hl+2,...,hT};

步骤S4、根据S4的输出,按照以下公式来计算能代表句子信息的向量o,具体公式如下:

at=softmax(wTM)

r=Hat

这里r表示的是加权后的能表征句子含义的向量,at表示的是注意力权重系数,其由将wTM输入到softmax函数后得出,M表示一个由模型GRU层中隐藏层的输出组成的矩阵H得来的向量,表示重复属性词词向量easp多次至和H的维度保持一致,H是模型中隐藏层输出组成的矩阵,tanh代表tanh函数,Wh、Wv、w是参数矩阵;最终得到能够最终表针句子信息的向量o

o=tanh(Wpr+Wxh)

h表示hr-1和hl+1向量的和,hr-1表示左GRU网络中的第r-1个词对应的隐藏层输出,hl+1表示右GRU网络中的第l+1个词对应的隐藏层输出,Wp和Wx表示参数矩阵;

步骤S5、输出层是将能够表针句子信息的向量o输入到softmax函数得到预测的情感极性具体由得出,Wo和bo都是参数矩阵;步骤6、根据S5的输出和每个句子对应的实际分类y计算损失函数值loss

其中λ是正则化系数,并通过误差反向传播算法训练迭代至Accuracy取得最大值,误差反向传播算法中的优化算法是以初始化系数为0.01的AdaGrad算法。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京工业大学,未经北京工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201910459539.6/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top