[发明专利]基于BERT和多层注意力机制的方面级情感分类方法有效

专利信息
申请号: 202011142297.7 申请日: 2020-10-22
公开(公告)号: CN112231478B 公开(公告)日: 2022-06-24
发明(设计)人: 廖伟智;黄鹏伟;阴艳超 申请(专利权)人: 电子科技大学
主分类号: G06F16/35 分类号: G06F16/35;G06F40/216;G06F40/284;G06F40/30;G06F40/126;G06N3/04
代理公司: 成都虹盛汇泉专利代理有限公司 51268 代理人: 王伟
地址: 611731 四川省成*** 国省代码: 四川;51
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 基于 bert 多层 注意力 机制 方面 情感 分类 方法
【权利要求书】:

1.基于BERT和多层注意力机制的方面级情感分类方法,其特征在于,包括以下步骤:

S1、对训练语料进行预处理;包括以下子步骤:

S11、从训练语料数据中提取每一条评论中的Aspect词,得到Aspect词集合DataAspect;

S12、从训练语料数据中提取每一个Aspect词对应的一条评论,得到集合DataContext;

S13、统计Aspect词与对应语料的情感极性,1代表积极,0代表中性,-1代表消极,得到标签集合LableSet;

S14、对DataContext进行位置符号处理,在每一条语料的Aspect词左边加入位置符号a,右边加入位置符号/a,然后作为训练数据并保存;

S2、建立基于多层attention的方面级别情感分类模型;所述多层attention的方面级别情感分类模型包括依次连接的词向量层、语义编码层、多层注意力层和输出层;

词向量层:使用预训练的词向量Gensim,将语料转化为神经网络能够处理的词向量;

语义编码层:本层使用Google预训练好的BERT-Base,Cased模型,得到语义编码向量,再将向量按从左到右的顺序拼接成一个语义编码矩阵;

多层注意力层:使用两层注意力机制:

第一层注意力机制用于捕捉DataAspect中单词与DataContext中每个单词的相关性,以及DataContext中单词与DataAspect中每个单词的相关性;

具体实现方法为:通过语义编码层输出的语义编码向量Hc和语义编码矩阵Ht,计算交互矩阵U:U=HcHtT,其中HtT表示对Ht的转置;U矩阵中的一个元素Uij表示DataContext中第i个单词和DataAspect中的第j个单词的相关度;

给U矩阵乘以一个矩阵Wac∈Rm×m,Wac是一个随机初始化的权重矩阵,参数待训练矩阵,Rm×m表示Wac矩阵的维度大小,表示Wac矩阵有m行m列;然后再用激活函数relu进行处理,具体操作方法为:由于采用固定长度的DataContext和DataAspect词序列,当序列不够时用0进行补位,为了消除补0操作对计算注意力权重带来的影响,进行mask操作,将矩阵中补0位置的值全部赋值为负无穷大,消除softmax函数操作带来的误差;mask操作计算方式如下:

Aac=mask(relu(UWac));

为了关注DataAspect词中对DataContext中第i个单词的重要程度,按Aac矩阵的第二维来做softmax操作,计算如下:

然后将相关性权重和对应位置的Uij相乘并相加,得到表示DataAspect词和DataContext中第i个单词的相关性,最终得到DataAspect关于DataContext中每个单词的相关性得分向量Mac∈Rn,计算如下:

DataContext关于DataAspect中每个单词的相关性分量为

第二次层注意力机制用于根据DataAspect关于DataContext中每个单词的相关性得分向量Mac,找出DataContext中对于情感极性预测更重要的词;根据DataContext关于DataAspect中每个单词的相关性得分向量Mca,找出DataAspect中对于情感极性预测更重要的词;

首先对Mca进行mask处理,消除补0对结果的影响,再对mask处理过的Mac进行softmax操作,得到DataContext中各个单词的注意力权重再将和Hc的第i个向量相乘再叠加,得到DataContext对于情感极性预测的最终向量表示计算如下:

mask(Mac)

同样地,得到DataAspect对于情感极性预测的最终向量表示计算如下:

mask(Mca)

输出层:将mc和ma拼接起来,得到最终情感极性预测的向量表示再将m经过全连接层处理得到最终标签的预测分布p,具体计算如下:

Tn=[mc,ma]

p=soft max(W*m+b)

其中,为一个可训练的参数矩阵,b∈Rc为偏置,C为方面级情感分类的类别数;

S3、使用训练好的分类模型对待预测的数据进行情感分类。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于电子科技大学,未经电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202011142297.7/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top