[发明专利]基于位置感知互注意力网络模型的属性级情感分类方法有效
申请号: | 201910751449.4 | 申请日: | 2019-08-15 |
公开(公告)号: | CN110489554B | 公开(公告)日: | 2021-06-18 |
发明(设计)人: | 相艳;张周彬;余正涛;郭军军;黄于欣;王红斌 | 申请(专利权)人: | 昆明理工大学 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F40/247;G06K9/62 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 650093 云*** | 国省代码: | 云南;53 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 位置 感知 注意力 网络 模型 属性 情感 分类 方法 | ||
1.基于位置感知互注意力网络模型的属性级情感分类方法,其特征在于:首先进行语料预处理,针对英文语料,遍历全部语料查找出所有不同的词构建一个词典文件;然后,采用Google提供的Word2vec工具进行词向量300维的训练,上下文、属性、位置向量的计算;然后进行特征提取,利用两个LSTM网络对属性和拼接位置向量的上下文向量进行独立编码,上下文隐藏层再次拼接位置向量,强化位置信息的重要性;接着属性和上下文互动学习,计算它们各自的注意力权重,生成有效表示;最后,将属性和上下文生成的有效表示进行拼接作为最终的表示并送入softmax分类器中进行情感分类;
所述基于位置感知互注意力网络模型的属性级情感分类方法的具体步骤如下:
Step1、词典的构建:将语料包含的所有词遍历后,去掉重复词,保证每个单词只出现一次,然后给每个单词赋予一个唯一的地址,保存到一个文本中,构成一个词典;供后续对应词向量的调用;
Step2、语料的数值化、位置信息的处理:将原始语料转化成数值方便后期的处理,将上下文和属性依次遍历,分别计算出它们各自的最长的长度max_context_len,max_aspect_len,然后利用词典将遍历到的词用它们的词典中对应的地址进行填充,达不到最长的长度的利用0进行填充,保证每条上下文长度都为max_context_len,每条属性的长度都为max_aspect_len保持数据一致性,构成上下文和属性的序列,保存到文件中;
对位置信息的处理方法为:
1)检索到属性词所在的位置i,设置该位置的权重为0;
2)以属性词为中心,在属性词的两侧设置两个工作指针,分别依次计算属性词左右两侧单词和属性词之间的相对位置的值li;
3)将获得相对位置的序列进行处理,计算公式:获得上下文位置序列;
Step3、Word2vector词向量的训练:利用Google的开源工具Word2vec进行词向量的训练,将每一个词转化成一个1*300的向量;
Step4、上下文向量、属性向量和位置向量的获取:通过步骤Step 2获得上下文序列、属性序列和位置序列;利用上下文序列检索出涉及的对应词向量构成上下文向量嵌入矩阵上下文不同单词对应的词向量乘上对应的Di,获得位置向量矩阵将vp和vc拼接,得到上下文最终的输入;属性词向量矩阵的获取方式和上下文词向量矩阵的获取方式一样以上的dp,dc,dt均表示向量维度,n、m分别表示上下文和属性的长度;
Step5、上下文和属性的初始表示:步骤Step 4获得的上下文向量、属性向量、位置向量,将上下文向量和位置向量拼接作为上下文最终的输入向量,利用两个LSTM网络对上下文最终的输入向量和属性向量分别进行独立编码,然后,上下文隐藏层的输出中第i个词的词向量再次拼接vp获得属性隐藏层的输出中第i个词的词向量表示拼接属性的输入vt获得对和作均值处理获得上下文和属性的初始表示:
Step6、上下文和属性单词得分γ的计算:步骤Step 5获得上下文和属性的初始表示T、C;上下文和属性互动学习挖掘和属性情感密切相关的信息,单词得分γ用来衡量单词在上下文和属性中的对属性情感信息的贡献度:
式中:Wc、Wt为权重,bc、bt为偏置,为上下文隐藏层的输出中第i个词的词向量,为属性隐藏层的输出中第i个词的词向量表示;
Step7、上下文和属性注意力权重的计算:利用注意力机制使得上下文和属性交互式学习,计算上下文和属性注意力权重αi、βi:
Step8、评论的最终有效表示:通过步骤Step 7获得上下文和属性的注意力权重αi、βi,利用上下文隐藏层的输出中第i个词的词向量和属性隐藏层的输出中第i个词的词向量表示与它们对应的注意力权重相乘获得上下文和属性有效表示,然后,将它们进行拼接获得评论最终有效表示S=[Cf,Tf]用于属性情感分类,把最终有效表示送入softmax分类器中进行情感分类;
上述式子中:n、m分别为上下文和属性的长度,αi、βi为上下文和属性的注意力权重,为上下文隐藏层的输出中第i个词的词向量,为属性隐藏层的输出中第i个词的词向量表示。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于昆明理工大学,未经昆明理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910751449.4/1.html,转载请声明来源钻瓜专利网。