[发明专利]一种基于Transformer和多任务学习的多模态情感分析方法及系统在审
申请号: | 202111194183.1 | 申请日: | 2021-10-13 |
公开(公告)号: | CN114091466A | 公开(公告)日: | 2022-02-25 |
发明(设计)人: | 石磊;张琼安;徐连诚;刘培玉;朱振方 | 申请(专利权)人: | 山东师范大学 |
主分类号: | G06F40/30 | 分类号: | G06F40/30;G06F40/205;G06F16/35;G06F16/683;G06F16/783;G06K9/62 |
代理公司: | 济南圣达知识产权代理有限公司 37221 | 代理人: | 黄海丽 |
地址: | 250014 山*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 transformer 任务 学习 多模态 情感 分析 方法 系统 | ||
本发明提供了一种基于Transformer和多任务学习的多模态情感分析方法及系统。该方法包括,提取得到文本数据对应的第一模态、视频数据对应的第二模态和音频数据对应的第三模态;主任务:采用映射Transformer编码器,从三种模态中随机挑选两种模态,将挑选的两种模态映射到未被挑选的模态中,得到三个映射特征;采用Transformer解码器对三个映射特征进行处理,得到三个特征向量,将三个特征向量进行拼接,得到三模态融合特征;根据三模态融合特征预测主任务的情感极性;辅助任务:基于所述三个映射特征,依据设定的积极情感中心和消极情感中心,确定三个映射特征的标签,结合所述三个映射特征预测情感;基于主任务得到的情感极性和辅助任务得到的情感,得到情感分析结果。
技术领域
本发明属于自然语言处理多模态情感分析任务领域,尤其涉及一种基于Transformer和多任务学习的多模态情感分析方法及系统。
背景技术
本部分的陈述仅仅是提供了与本发明相关的背景技术信息,不必然构成在先技术。
情感分析是自然语言处理中的一个热门任务,原始的情感分析主要集中在对文本做细粒度的研究。随着微博和抖音等社交媒体的普及,人们开始通过多种形式来表达自己的情感。我们可以通过识别面部表情和语音语调,再加上语言的帮助,得到比简单分析文本更多的情感信息。为了能够掌握短视频社交平台的用户舆论、了解当前新闻热点的社会影响,及时做出正确的应对方法,我们需要用多模态方法进行用户情感极性的分析。
面对互联网中每天更新和存储的海量视频信息,仅依靠人工进行鉴别审核是不现实的。近年来,随着深度学习的兴起,越来越多的基于神经网络的模型被应用于多模态情感分析领域中。目前多模态特征提取主要包括基于长短时记忆神经网络和基于Transformer的神经网络模型。多模态融合主要包括早期融合(特征层融合)、后期融合(决策层融合)和模型层融合。
这些复杂的融合机制可以很好地发挥作用,但仍存在一些问题。首先,以前的研究大部分都是针对对齐场景下的多模态联合表示,融合总是从一个方向开始,然后沿着这个方向持续到最后,缺少对总体模态依赖性的关注;其次,主流多模态训练数据集并没有提供其子任务的情感标签,忽视了单模态和双模态对最终融合情感分析的增益作用。
Transformer首次被提出是应用于神经机器翻译领域,这是一个序列到序列的结构,其编码器和解码器都是利用自注意力进行实现,可以在很多任务上实现最先进的性能,因此,Transformer已经成为自然语言处理中的热门架构。除了于神经机器翻译,Transformer也已成功应用于语言建模、语义角色标记、词感消歧、学习句子表述、视频活动识别。但是人类多模态语言时间序列和词嵌入不同,每个模态对应的序列都有着不同频率,如果使用基于长短时记忆神经网络的模型,很难针对时序不对齐的多模态进行分析。
多任务学习是迁移学习算法的一种,可以把多个相关的任务放在一起学习,同时学习多个任务,学习过程中通过一个在浅层的共享表示来互相分享、互相补充学习到的领域相关的信息,互相促进学习,提升泛化的效果。最近,多任务学习在自然语言处理中被广泛应用,多模态中不同模态的情感分析非常适合用来进行多任务学习。
发明内容
为了解决上述背景技术中存在的技术问题,本发明提供一种基于Transformer和多任务学习的多模态情感分析方法及系统,其利用Transformer的编码器构建映射Transformer,整合不同模态的信息,使每个单独的模态可以拥有其他模态的信息映射,获得更丰富的特征信息。
为了实现上述目的,本发明采用如下技术方案:
本发明的第一个方面提供一种基于Transformer和多任务学习的多模态情感分析方法。
一种基于Transformer和多任务学习的多模态情感分析方法,包括:
获取文本数据、视频数据和音频数据,提取得到文本数据对应的第一模态、视频数据对应的第二模态和音频数据对应的第三模态;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于山东师范大学,未经山东师范大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111194183.1/2.html,转载请声明来源钻瓜专利网。
- 上一篇:抑制变换器宽频振荡的方法及装置
- 下一篇:一种4-8通道高速CMOS驱动芯片
- 基于Transformer+LSTM神经网络模型的商品销量预测方法及装置
- 一种基于Transformer模型自然场景文字识别方法
- 一种深度Transformer级联神经网络模型压缩算法
- 点云分割方法、系统、介质、计算机设备、终端及应用
- 基于Transformer的中文智能对话方法
- 一种基于改进Transformer模型的飞行器故障诊断方法和系统
- 一种基于Transformer模型的机器翻译模型优化方法
- 基于Transformer和增强交互型MPNN神经网络的小分子表示学习方法
- 基于U-Transformer多层次特征重构的异常检测方法及系统
- 基于EfficientDet和Transformer的航空图像中的飞机检测方法