[发明专利]基于多标签的情绪-原因对抽取方法及系统有效
申请号: | 202010159301.4 | 申请日: | 2020-03-09 |
公开(公告)号: | CN111382565B | 公开(公告)日: | 2023-08-11 |
发明(设计)人: | 夏睿;张梦冉 | 申请(专利权)人: | 南京理工大学 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F40/30;G06F40/216;G06N3/0442;G06N3/045;G06N3/048;G06N3/084 |
代理公司: | 南京理工大学专利中心 32203 | 代理人: | 陈鹏 |
地址: | 210094 *** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 标签 情绪 原因 抽取 方法 系统 | ||
本发明公开了一种基于多标签的情绪‑原因对抽取方法及系统,采用端到端的方式直接抽取情绪‑原因对,该方法主要包括:对新闻数据集进行预处理;构建基于注意力机制的层次双向LSTM模型,建模“词‑子句‑文档”的层次关系,根据多标签的定义特点,本发明设计了两个辅助任务:情绪预测和原因预测;底层双向LSTM用来捕捉词之间的序列关系,注意力机制将词的上下文信息通过加权和得到子句表示,上层双向LSTM用来获得子句间的序列关系,最终获得多标签分类结果。本发明解决了现有技术中每一步都可能存在信息丢失的问题,提升情绪‑原因对抽取的准确性。
技术领域
本发明涉及自然语言处理技术,特别是一种基于多标签的情绪-原因对抽取方法及系统。
背景技术
当今社会是一个快速发展的时代,比起在日常生活中面对面交流,人们更倾向于在社交媒体上分享他们的经历和情绪。因此,在线文本的情绪分析成为了自然语言处理领域的一个新挑战。近年来,情绪分析研究主要集中在情绪分类上,如分析人们在Twitter上表达的情绪以及新闻中产生的情绪。随着对该领域的一步步探索,很多工作正逐渐从单一地分析情绪表达向对情绪相关的更深层次研究,比如提取情绪触感、情绪状态迁移、隐含情绪分析等。这些方法只关心人们表达了哪种情感,但是有时候我们更关心为什么会产生这种情感,即产生这种情感的原因,做到“知其然”也“知其所以然”。因此衍生出了情绪原因抽取任务,该任务是情绪分析的一项基础性和挑战性的工作,旨在分析产生某种情绪的具体原因。
情绪原因抽取是值得深入研究的一个任务,但是这个任务存在一些问题。首先,如果想抽取出情绪原因必须先对情绪进行标注,这限制了情绪原因抽取在实际场景中的应用。其次,先标注情绪然后抽取原因的方法忽略了情绪和原因之间相互指示的事实。因此出现了一个新任务:情绪-原因对抽取,即在没有提供情绪标注的情况下,直接抽取出文档中潜在的情绪和原因对。为了解决这一问题,以前的工作提出了一种两步走的框架:第一步将情绪-原因对抽取任务转换为两个独立的子任务(情绪抽取和原因抽取);第二步是将情绪子句和原因子句进行配对,训练一个过滤器来筛选掉没有包含因果关系的伪情绪-原因对。然而,两步走的框架存在一些缺陷。首先,虽然在第一步提出了交互式多任务学习网络来获取情绪和原因之间的相关性,但是这种方法只是为了提高多任务的性能,不是为了提取情绪-原因对,情绪和原因之间只是一种间接互动。其次,这个方法不是一个端到端的模型,因此信息在每一步都可能存在信息丢失,最终的结果在很大程度上受第一步抽取准确性的限制。
发明内容
本发明的目的在于提供一种基于多标签的情绪-原因对抽取方法及系统,将情绪-原因对抽取任务重新定义为一个多标签分类问题,以端到端的方式直接抽取情绪-原因对,本发明还利用两个辅助任务来进一步提升模型的性能。
实现本发明目的的技术方案如下:一种基于多标签的情绪-原因对抽取方法,包括如下步骤:
数据预处理:将数据集中的样本转化为包含多个子句的文档,并处理出情绪子句和原因子句,通过非标注语料,训练得到具有语义信息的词向量;
模型训练:将文档中子句的每个词映射成对应的词向量,输入到层次神经网络模型中训练,将训练得到的子句进行多标签预测;
结果处理:在层次神经网络的基础上,设计情绪预测和原因预测两个辅助任务,利用它们的预测标签作为特征来指导多标签预测。
一种基于多标签的情绪-原因对抽取系统,包括:
待测数据预处理模块,用于对于数据集中的每一个文档,根据标注处理出情绪和原因对,根据标点符号划分子句,通过大规模训练得到子句中每个词的向量表示;
多标签预测模块,用于训练基于多标签的层次神经网络框架,编码“词-子句-文档”之间的关系,以端到端的方式直接抽取情绪-原因对;
结果获取模块,用于根据多标签的预测结果,定位到情绪子句和对应的原因子句的位置,进而抽取出情绪-原因对。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京理工大学,未经南京理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010159301.4/2.html,转载请声明来源钻瓜专利网。