[发明专利]基于Target-Aspect-Opinion联合抽取的短文本评论情感分析方法有效
申请号: | 202110325886.7 | 申请日: | 2021-03-26 |
公开(公告)号: | CN112800184B | 公开(公告)日: | 2021-08-06 |
发明(设计)人: | 陈沁蕙;赵慧;姚婉薇 | 申请(专利权)人: | 华东师范大学 |
主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F16/35;G06F16/36;G06F40/242;G06N3/04;G06N3/08 |
代理公司: | 上海德禾翰通律师事务所 31319 | 代理人: | 夏思秋 |
地址: | 200241 *** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 target aspect opinion 联合 抽取 文本 评论 情感 分析 方法 | ||
1.一种基于Target-Aspect-Opinion联合抽取的短文本评论情感分析方法,其特征在于,包括以下步骤:
步骤A:获取公开的评论文本数据,形成原始数据集;
步骤B:文本预处理;
步骤C:为所述原始数据集打上四元组标签;所述四元组标签为(评价对象,主题,评价短语,情感倾向);
步骤D:将联合抽取四元组任务转化联合抽取三元组任务,并映射为实体关系联合抽取任务;所述步骤D包括以下子步骤:
步骤D1:将基于Target-Aspect-Opinion联合抽取的情感分析问题记作TAOBSA任务;
步骤D2:将四元组记作TAOBSA任务抽取得到的结果;
步骤D3:TAOBSA任务中Target和Opinion为关键词抽取任务,Aspect和Sentiment为分类任务,联合抽取四元组U,将两个分类任务Aspect和Sentiment合并为一个分类任务,并用表示;
步骤D4:将四元组U映射为三元组,U中的Target映射为主实体Target,U中的Opinion映射为客实体Opinion,将两个分类任务Aspect和Sentiment合并为一个分类任务TOR映射为中的TOR,从而将TAOBSA任务的四元组抽取任务U转化成三元组的抽取;
步骤E:构建基于Target-Aspect-Opinion的情感分析模型,并训练得到最终模型。
2.如权利要求1所述的一种基于Target-Aspect-Opinion联合抽取的短文本评论情感分析方法,其特征在于,步骤B中所述文本预处理包括:
步骤B1:探查分析数据集中的过短文本,删除过短评论;
步骤B2:去除情感句中冗余的标点符号;
步骤B3:统计数据集中的领域短语及中英文不一致表达,基于官方领域词典,归一化为标准表达;
步骤B4:统计分析数据集中的错别字表达,归一化为正确表达。
3.如权利要求1所述的一种基于Target-Aspect-Opinion联合抽取的短文本评论情感分析方法,其特征在于,步骤C中为数据标注阶段,统一对经过步骤B预处理之后的数据集进行四元组标注,所述数据标注的具体步骤包括:
步骤C1:基于情感句标注所有存在的Aspect和当前Aspect对应的Sentiment;
步骤C2:基于Aspect和Sentiment标注对应的Target和Opinion,若不存在,则标记为空;
步骤C3:获得标注完成后的数据结构。
4.如权利要求1所述的一种基于Target-Aspect-Opinion联合抽取的短文本评论情感分析方法,步骤E为构建基于Target-Aspect-Opinion联合抽取的情感分析模型阶段,其特征在于,步骤E包括:
步骤E1:TAOBSAN情感分析模型的输入部分将步骤B预处理得到的数据集作为TAOBSAN的输入,输入数据经过BERT中N层Transformer机制的字向量方法表示,学习每个字的上下文特征,构建输入序列的字向量表示为集合;
步骤E2:构建TAOBSAN模型的两个隐藏层,用于学习情感句的上下文信息,首先,构建第一层隐藏层用于学习评价对象Target的上下文特征,将文本向量化集合输入BiLSTM中学习评价对象Target的上下文特征集合,并输出Target的特征序列,构建第二层隐藏层用于学习评价短语Opinion的上下文特征,输出学习TOR和Opinion的特征序列;
步骤E3:构建TAOBSAN模型的预测层,预测层包括二阶段预测,第一阶段预测层输入来自第一层隐藏层所输出的Target特征序列,预测评价对象Target,并将预测信息向量化后送入第二层隐藏层,第二阶段预测层输入来自第二层隐藏层,预测评价短语Opinion、主题Aspect和情感值Sentiment;
步骤E4:构建TAOBSAN模型的输出层,输出情感句中的所有预测序列,表达公式为:;
其中,Res为TAOBSAN模型预测得到的输出结果,Tk表示当前情感句第k个输出结果的Target,Wk表示当前情感句第k个输出结果对应的Opinion,Rk表示当前情感句第k个输出结果中Target和Opinion对应的关系;其中,len为Res的长度。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华东师范大学,未经华东师范大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110325886.7/1.html,转载请声明来源钻瓜专利网。