[发明专利]一种基于Transformer的多模态特征融合的在押人员情感识别方法、设备及介质有效
申请号: | 202111098471.7 | 申请日: | 2021-09-18 |
公开(公告)号: | CN113822192B | 公开(公告)日: | 2023-06-30 |
发明(设计)人: | 李玉军;韩卓群;朱孔凡;杨阳;翟超 | 申请(专利权)人: | 山东大学 |
主分类号: | G06V40/16 | 分类号: | G06V40/16;G06V10/764;G06V10/80;G06V10/82;G06F40/242;G06F40/289;G06N3/0464;G06N3/049;G06N3/0499;G06N3/08 |
代理公司: | 济南金迪知识产权代理有限公司 37219 | 代理人: | 杨树云 |
地址: | 250199 山*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 transformer 多模态 特征 融合 在押 人员 情感 识别 方法 设备 介质 | ||
本发明涉及一种基于Transformer的多模态特征融合的在押人员情感识别方法、设备及介质,包括:(1)数据预处理:对文本数据、语音数据、微表情数据、肢体动作数据分别进行预处理,使其符合不同模态对应模型的输入要求;(2)特征提取:对四个模态的数据所蕴含的情感信息分别进行提取,获取对应的特征向量;(3)特征融合:采用跨模态Transformer将特征向量进行特征融合:(4)训练模型,得到最优的情感识别模型。本发明克服不同模态间的长时依赖性,有效地捕捉不同模态之间的互补信息及它们之间的相互影响,使得到的联合特征向量能更加全面的表示在押人员的正确的情感状态,提高情感识别的准确率。
技术领域
本发明涉及一种基于Transformer进行多模态特征融合的在押人员情感识别方法、设备及存储介质,属于情感计算的技术领域。
背景技术
从上世纪开始,随着越来越多的人工智能机器人产品的出现,机器与人之间实现了有意义的互动,让机器能够响应用户的需求。然而,大多数产品只回答特定的问题,并没有适当地响应用户的需求。自动情感识别技术可以帮助计算机系统响应用户的需求,使机器真正“温暖”,增强用户体验。情感识别在监狱等特殊场所起到十分重要的作用,对在押人员这类特殊人群进行情感识别,可以有效的监控他们的情感状态,对于保障监狱环境安全,提升改造质量具有重要意义。尽管情感识别研究已经有几十年的历史,但一直难以实现实际应用。主要原因是研究中使用的模型不够先进,不能充分利用数据中的情感特征。
由于在押人员的身份特殊性,使其具有很强的防范心理,进而会隐藏自己情感的表达,基于单模数据的情感识别可能产生较大的误差,难以准确判断在押人员的真实情绪。单模态情感识别具有识别率低、鲁棒性差的特点。在建立一个鲁棒性高、高识别率的在押人员情感识别模型时,不仅需要解决如何正确提取被在押人员的情感特征,而且需要解决不同模态下在押人员的情感特征信息互补的问题,合理解决不同模态之间的相关性和差异性等一系列特征提取和融合问题。
发明内容
针对现有技术的不足,本发明提供了一种基于Transformer进行多模态特征融合的在押人员情感识别方法。
发明概述:
一种基于Transformer进行多模态特征融合的在押人员情感识别方法,利用了文本、语音、微表情和肢体动作四个模态的数据来进行最后的情感计算。首先,对四个模态的数据分别进行特征提取。对文本的特征提取采用GloVe预训练词向量嵌入,对语音的特征提取采用COVAREP开源工具进行提取,对微表情的特征提取采用dlib工具包和imotionFACET工具进行面部表情特征提取,对于肢体动作,采用Openpose工具进行骨骼关键点提取。然后,将四个模态的特征通过基于Transformer的多模态融合模型进行特征融合,可以得到精确度高,表达能力好的联合特征向量,相较于其他融合方式,Transformer架构可以实现不同模态间的信息交互提高识别效果。最后,再将特征拼接,输入到全连接网络进行情感识别。
本发明详细解释了提取各个模态特征时用到的神经网络的作用,在特征融合的过程中充分实现了不同模态之间的信息的交互,同时,避免了传统多模态融合方法中需要繁琐的对齐操作的问题,从而提高了网络的性能。本发明在特征融合方面引入Transformer架构,使网络得到优化,得到的联合特征向量更加有效,更加有利于提取到更好的情感特征,提高最后的识别效果。
本发明应用于在押人员的真实情感识别,主要是在监狱在押人员与家属/亲友进行远程视频会见,或者在押人员与其他在押人员以及狱警的的自然交流过程中,通过对在押人员多模态数据的进行采集和分析,从而实现判别在押人员真实情感状态的变化。本发明采用基于Transformer架构的多模态融合的方式,从多个维度去分析在押人员的情感状态,更具综合性和有效性,从而提高了情感识别的效果。
本发明还提供了一种计算机设备及存储介质。
术语解释:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于山东大学,未经山东大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111098471.7/2.html,转载请声明来源钻瓜专利网。
- 基于Transformer+LSTM神经网络模型的商品销量预测方法及装置
- 一种基于Transformer模型自然场景文字识别方法
- 一种深度Transformer级联神经网络模型压缩算法
- 点云分割方法、系统、介质、计算机设备、终端及应用
- 基于Transformer的中文智能对话方法
- 一种基于改进Transformer模型的飞行器故障诊断方法和系统
- 一种基于Transformer模型的机器翻译模型优化方法
- 基于Transformer和增强交互型MPNN神经网络的小分子表示学习方法
- 基于U-Transformer多层次特征重构的异常检测方法及系统
- 基于EfficientDet和Transformer的航空图像中的飞机检测方法