[发明专利]一种基于Transformer-ESIM注意力机制的多模态情绪识别方法在审
申请号: | 202011518470.9 | 申请日: | 2020-12-21 |
公开(公告)号: | CN112633364A | 公开(公告)日: | 2021-04-09 |
发明(设计)人: | 高姗;徐志京 | 申请(专利权)人: | 上海海事大学 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06N3/04;G06N3/08 |
代理公司: | 上海互顺专利代理事务所(普通合伙) 31332 | 代理人: | 裴姣姣 |
地址: | 201306 上海市*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 transformer esim 注意力 机制 多模态 情绪 识别 方法 | ||
本发明公开了一种基于Transformer‑ESIM注意力机制的多模态情绪识别方法,包括:对原始数据进行预处理,以获得语音序列和文本序列;将预处理后的语音序列和文本序列输入至transformer编码层,以在transformer编码层提取深层特征并进行编码,获得编码序列;将编码序列输入至ESIM的交互注意力层,获得语音序列和文本序列之间的相似特征和差异特征;对相似特征和差异特征进行池化处理;将池化处理后的相似特征和差异特征输入至分类器,获得情绪识别的分类结果。应用本发明实施例,解决了传统神经网络的长期依赖性,其自身顺序属性无法捕获长距离特征以及多模态特征直接融合而忽视的模态间交互的问题,提高模型对情感语义的理解和泛化能力。
技术领域
本发明涉及模式识别与人工智能技术领域,尤其涉及一种基于Transformer-ESIM注意力机制的多模态情绪识别方法。
背景技术
随着人工智能领域的迅速发展以及深度学习的助力,人机交互领域受到越来越多研究学者的重视。而情绪识别作为人机交互中一个重要的分支,也成为了当前的热点研究方向。目前,对情绪识别的研究大多集中在语音、面部表情、文本等单模态领域。语音作为人们交流最直接的手段,其中涵盖了丰富的情绪信息,人们情绪的变化可以通过语音特征体现出来。语音情绪识别正是将输入包含情绪信息的语音信号转化为可读的物理特征,并提取其中与情绪表达相关的语音特征,再构建情绪识别分类器进行测试和训练,最后输出情绪识别分类结果。然而,单一语音模态的情绪识别易受外界因素影响缺失一些情感信息,如噪音、信号强弱等,导致语音情绪识别的效果不够显著。鉴于不同模态间存在互补性,可将文本模态和语音模态进行融合改善单一语音模态情绪识别的缺陷,从而提高情绪识别准确率。
为了利用来自语音信号和文本序列的信息,Jin等人从声学和词汇两个层面生成特征表示,并构建情绪识别系统。Sahay等人提出了一种利用段内模态间相互作用的关系张量网络结构,利用更丰富的语音和文本上下文信息生成文本和语音模态的丰富表示。Akhtar等人提出了一个同时预测话语情绪和情绪表达的语境跨模态注意框架,将注意力集中在对相邻话语和多模态表征的贡献上,有助于网络更好的学习。此外,Gamage等人提出了使用音素序列来编码与情绪表达相关的语言线索,将文本信息与语音特征相结合,从而提高情绪识别的准确率。虽然基于语音和文本的多模态情绪识别方法已取得了不错的成果,然而在传统端到端的神经网络中,由于提取情感信息特征时易受模型固有的顺序特性限制,导致无法获取整个语句序列前后间的相关特征信息。因此,多模态情绪识别的分类准确率仍有待提高。
发明内容
本发明的目的在于提供一种基于Transformer-ESIM注意力机制的多模态情绪识别方法,旨在解决传统循环神经网络在序列特征提取时存在长期依赖性,其自身顺序属性无法捕获长距离特征的问题以及多模态特征直接融合而忽视的模态间交互的问题。
为了实现上述目的,本发明提供一种基于Transformer-ESIM注意力机制的多模态情绪识别方法,包括:
对原始数据进行预处理,以获得语音序列和文本序列,其中,所述原始数据至少包括语音数据和文本数据;
将预处理后的语音序列和文本序列输入至transformer编码层,以在所述transformer编码层提取深层特征并进行编码,获得编码序列;
将所述编码序列输入至ESIM的交互注意力层,获得语音序列和文本序列之间的相似特征和差异特征;
对所述相似特征和所述差异特征进行池化处理;
将池化处理后的相似特征和差异特征输入至分类器,获得情绪识别的分类结果。
一种实现方式中,所述将预处理后的语音序列和文本序列输入至transformer编码层,以在所述transformer编码层提取深层特征并进行编码,获得编码序列的步骤包括:
使用transformer编码层对预处理后的语音序列和文本序列进行并行化特征处理;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海海事大学,未经上海海事大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011518470.9/2.html,转载请声明来源钻瓜专利网。
- 基于Transformer+LSTM神经网络模型的商品销量预测方法及装置
- 一种基于Transformer模型自然场景文字识别方法
- 一种深度Transformer级联神经网络模型压缩算法
- 点云分割方法、系统、介质、计算机设备、终端及应用
- 基于Transformer的中文智能对话方法
- 一种基于改进Transformer模型的飞行器故障诊断方法和系统
- 一种基于Transformer模型的机器翻译模型优化方法
- 基于Transformer和增强交互型MPNN神经网络的小分子表示学习方法
- 基于U-Transformer多层次特征重构的异常检测方法及系统
- 基于EfficientDet和Transformer的航空图像中的飞机检测方法