[发明专利]一种基于情感词向量的汽车在线评论情感分析方法在审
申请号: | 202110425629.0 | 申请日: | 2021-04-20 |
公开(公告)号: | CN112966526A | 公开(公告)日: | 2021-06-15 |
发明(设计)人: | 刘露;姚志林;费玉玺;包铁;彭涛 | 申请(专利权)人: | 吉林大学 |
主分类号: | G06F40/30 | 分类号: | G06F40/30;G06F16/9536;G06Q30/02;G06N3/04;G06N3/08 |
代理公司: | 北京华际知识产权代理有限公司 11676 | 代理人: | 曹书华 |
地址: | 130012 吉*** | 国省代码: | 吉林;22 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 情感 向量 汽车 在线 评论 分析 方法 | ||
1.一种基于情感词向量的汽车在线评论情感分析方法,其特征在于,包括:
1)输入层:在输入层中,主要将模型的输入文本转化为不同的低维且连续的实值向量,构成词嵌入表示;词向量输入层作为加载词向量的模型,将获取到的评论文本数据映射到向量空间中去,从而实现将词语表示为固定长度的向量;让预训练语言模型在该阶段能够充分学习上下文的情感信息来对掩盖的情感词进行预测,而已有的情感词作为目标语义信息以监督学习的方式馈送给模型,而后通过反向传播的方式调整参数值;
2)特征学习层:特征学习层能够学习输入句子的向量表示,对目标词及其上下文的依赖关系进行建模;在整体情感分析模型中,选取双向长短期记忆网络BiLSTM作为特征学习层来处理评论文本的语义信息;
3)注意力层:通过特征学习层中BiLSTM网络的前后向隐含层,学习目标词与上下文的语义信息,在BiLSTM网络的基础上增加注意力机制,来使模型对不同的隐藏层向量分配不同的注意力关注值;
4)情感分类层:在情感分类层,将注意力层的输出作为本层的输入,数据的分类是由全连接层实现,全连接层采用softmax模型作情感倾向预测。
2.根据权利要求1所述的一种基于情感词向量的汽车在线评论情感分析方法,其特征在于,在预训练阶段加入情感信息作为先验知识,通过大规模的预训练任务,提升模型的表征能力,具体步骤如下:
对Bert而言,文本特征的学习主要依靠掩盖语言模型的预测过程。Bert在训练模型参数时,会在掩盖语言模型中采用“掩盖”的方式去掉特定词,然后通过模型训练的方式自动进行补全,模型的输出则是目标词可能的概率分布;在训练时,将已有的领域情感词典中的情感词进行情感极性标注,并作为监督信息馈送到模型中;情感词典中的情感词作为掩盖词的依据,通过掩盖语言模型的预测任务,让模型在该阶段能够充分学习上下文的情感信息来对掩盖的情感词进行预测,而已有的情感词作为目标语义信息以监督学习的方式馈送给模型,而后通过反向传播的方式调整参数值,从而能够让模型在捕获文本特征时,不仅能够很好的预测掩盖词的语义信息,并且能通过学习该词的上下文将其所蕴含的情感信息准确预测出来。
对于序列S,将编码后的上下文信息作为掩盖词的动态词向量,并使用softmax对其情感倾向做预测,其所属的概率分布计算公式如下所示:
其中,xMASX表示的是序列S中掩盖词w经Transformer提取后对应的表征,为权重矩阵。
3.根据权利要求1所述的一种基于情感词向量的汽车在线评论情感分析方法,其特征在于,选取双向长短期记忆网络BiLSTM作为特征学习层来处理评论文本的语义信息,BiLSTM由两个隐含层构成,同时连接到输出层单元,该隐含层是两个顺序方向相反的LSTM叠加组成的,具体步骤如下:
BiLSTM从词向量输入层中接收词向量序列{e1,e2,e3,...,en}作为输入,其中ei表示输入序列中一个的词向量。而后分别经过前向单元和后向单元读取到t时刻的前向信息和后向信息最终的隐藏语义状态ht是由前向信息和后向信息融合而来的;
最后将隐含层的输出进行拼接,作为注意力层的输入。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于吉林大学,未经吉林大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110425629.0/1.html,转载请声明来源钻瓜专利网。