[发明专利]方面级情感分析方法在审
申请号: | 202110305825.4 | 申请日: | 2021-03-22 |
公开(公告)号: | CN112966503A | 公开(公告)日: | 2021-06-15 |
发明(设计)人: | 王璐;马宏伟 | 申请(专利权)人: | 山东建筑大学 |
主分类号: | G06F40/284 | 分类号: | G06F40/284;G06F40/30;G06F40/211;G06K9/62;G06N3/04;G06N3/08 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 250101 *** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 方面 情感 分析 方法 | ||
1.方面级情感分析方法,其方法步骤如下:
输入层:通过Bert模型将文本进行向量化,使神经网络能够识别;
方面词-情感倾向联合抽取:将向量化的文本送入两个堆叠的双向LSTM网络中进行方面词-情感词联合抽取;
意见词抽取:将向量化的文本送入GCN和双向LSTM堆叠的网络中进行意见词抽取;
方面词和意见词匹配:将上两部得到的序列通过枚举方式得到方面意见对,通过距离匹配算法进行有效性预测。
2.根据权利要求1所述的细粒度情感分析方法,其特征在于:所述输入层中使用Bert模型进行文本向量化,输入序列为:
x={x1,x2,...,xT}。
3.根据权利要求1所述的细粒度情感分析方法,其特征在于,所述Bert模型有三个embedding对文本进行预处理:
token embedding层是要将各个词转换成固定维度的向量;
segment embeddings层对句子个数进行编码,若输入的文本只包含一个句子,那么segment embeddings均为1,如果输入的句子包含两个句子,则第一个句子标记为1,第二个句子标记为2;
position Embeddings是一个大小为(512,768)的lookup表,表的第一行是代表第一个序列的第一个位置,第二行代表序列的第二个位置,以此类推;
将x对应的token embeddings、segment embeddings和position embeddings组合成Transformer层的输入序列H0={e1,e2,…,eT};
Transformer层需要12个,计算公式为:
Hl=Transformerl(Hl-1);
Hl将作为方面词-情感倾向联合抽取和意见词抽取的输入。
4.根据权利要求1所述的细粒度情感分析方法,其特征在于:所述方面词-情感倾向联合抽取为序列标注问题:
序列标注的标签为:AS={B-POS,I-POS,E-POS,S-POS,B-NEG,I-NEG,E-NEG,S-NEG,
B-NEU,I-NEU,E-NEU,S-NEU,O};
下层BiLSTMI进行边界标签预测,公式为:
上层BiLSTMS进行方面词-情感倾向联合标注,公式为:
5.根据权利要求1所述的细粒度情感分析方法,其特征在于:所述意见词抽取使用GCN学习单词之间的依赖关系:
GCN的邻接矩阵基于句子的依赖程度构建,通过GCN可获取方面词与意见词之间的依赖关系;
将GCN的输出送入BiLSTMOPT网络中进行上下文信息编码。
6.根据权利要求1所述的细粒度情感分析方法,其特征在于,所述方面词和意见词匹配通过距离的方法得到有效配对:
将方面词和意见词通过枚举方式两两配对;
通过方面词与意见词之间的距离编码它们之间的位置关系,得到位置索引;
将位置索引与Hl结合作为双向LSTM网络的输入,通过双向LSTM网络学习距离信息,并将其发送到softmax层进行二进制分类,得到有效配对。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于山东建筑大学,未经山东建筑大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110305825.4/1.html,转载请声明来源钻瓜专利网。
- 上一篇:便携式户外健身用应急救援警报器
- 下一篇:一种EB固化覆铜铝基板散热涂料