[发明专利]基于Target-Aspect-Opinion联合抽取的短文本评论情感分析方法有效

专利信息
申请号: 202110325886.7 申请日: 2021-03-26
公开(公告)号: CN112800184B 公开(公告)日: 2021-08-06
发明(设计)人: 陈沁蕙;赵慧;姚婉薇 申请(专利权)人: 华东师范大学
主分类号: G06F16/33 分类号: G06F16/33;G06F16/35;G06F16/36;G06F40/242;G06N3/04;G06N3/08
代理公司: 上海德禾翰通律师事务所 31319 代理人: 夏思秋
地址: 200241 *** 国省代码: 上海;31
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 基于 target aspect opinion 联合 抽取 文本 评论 情感 分析 方法
【权利要求书】:

1.一种基于Target-Aspect-Opinion联合抽取的短文本评论情感分析方法,其特征在于,包括以下步骤:

步骤A:获取公开的评论文本数据,形成原始数据集;

步骤B:文本预处理;

步骤C:为所述原始数据集打上四元组标签;所述四元组标签为(评价对象,主题,评价短语,情感倾向);

步骤D:将联合抽取四元组任务转化联合抽取三元组任务,并映射为实体关系联合抽取任务;所述步骤D包括以下子步骤:

步骤D1:将基于Target-Aspect-Opinion联合抽取的情感分析问题记作TAOBSA任务;

步骤D2:将四元组记作TAOBSA任务抽取得到的结果;

步骤D3:TAOBSA任务中Target和Opinion为关键词抽取任务,Aspect和Sentiment为分类任务,联合抽取四元组U,将两个分类任务Aspect和Sentiment合并为一个分类任务,并用表示;

步骤D4:将四元组U映射为三元组,U中的Target映射为主实体Target,U中的Opinion映射为客实体Opinion,将两个分类任务Aspect和Sentiment合并为一个分类任务TOR映射为中的TOR,从而将TAOBSA任务的四元组抽取任务U转化成三元组的抽取;

步骤E:构建基于Target-Aspect-Opinion的情感分析模型,并训练得到最终模型。

2.如权利要求1所述的一种基于Target-Aspect-Opinion联合抽取的短文本评论情感分析方法,其特征在于,步骤B中所述文本预处理包括:

步骤B1:探查分析数据集中的过短文本,删除过短评论;

步骤B2:去除情感句中冗余的标点符号;

步骤B3:统计数据集中的领域短语及中英文不一致表达,基于官方领域词典,归一化为标准表达;

步骤B4:统计分析数据集中的错别字表达,归一化为正确表达。

3.如权利要求1所述的一种基于Target-Aspect-Opinion联合抽取的短文本评论情感分析方法,其特征在于,步骤C中为数据标注阶段,统一对经过步骤B预处理之后的数据集进行四元组标注,所述数据标注的具体步骤包括:

步骤C1:基于情感句标注所有存在的Aspect和当前Aspect对应的Sentiment;

步骤C2:基于Aspect和Sentiment标注对应的Target和Opinion,若不存在,则标记为空;

步骤C3:获得标注完成后的数据结构。

4.如权利要求1所述的一种基于Target-Aspect-Opinion联合抽取的短文本评论情感分析方法,步骤E为构建基于Target-Aspect-Opinion联合抽取的情感分析模型阶段,其特征在于,步骤E包括:

步骤E1:TAOBSAN情感分析模型的输入部分将步骤B预处理得到的数据集作为TAOBSAN的输入,输入数据经过BERT中N层Transformer机制的字向量方法表示,学习每个字的上下文特征,构建输入序列的字向量表示为集合;

步骤E2:构建TAOBSAN模型的两个隐藏层,用于学习情感句的上下文信息,首先,构建第一层隐藏层用于学习评价对象Target的上下文特征,将文本向量化集合输入BiLSTM中学习评价对象Target的上下文特征集合,并输出Target的特征序列,构建第二层隐藏层用于学习评价短语Opinion的上下文特征,输出学习TOR和Opinion的特征序列;

步骤E3:构建TAOBSAN模型的预测层,预测层包括二阶段预测,第一阶段预测层输入来自第一层隐藏层所输出的Target特征序列,预测评价对象Target,并将预测信息向量化后送入第二层隐藏层,第二阶段预测层输入来自第二层隐藏层,预测评价短语Opinion、主题Aspect和情感值Sentiment;

步骤E4:构建TAOBSAN模型的输出层,输出情感句中的所有预测序列,表达公式为:;

其中,Res为TAOBSAN模型预测得到的输出结果,Tk表示当前情感句第k个输出结果的Target,Wk表示当前情感句第k个输出结果对应的Opinion,Rk表示当前情感句第k个输出结果中Target和Opinion对应的关系;其中,len为Res的长度。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华东师范大学,未经华东师范大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202110325886.7/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top