[发明专利]一种基于Transformer的多模态特征融合的在押人员情感识别方法、设备及介质有效
申请号: | 202111098471.7 | 申请日: | 2021-09-18 |
公开(公告)号: | CN113822192B | 公开(公告)日: | 2023-06-30 |
发明(设计)人: | 李玉军;韩卓群;朱孔凡;杨阳;翟超 | 申请(专利权)人: | 山东大学 |
主分类号: | G06V40/16 | 分类号: | G06V40/16;G06V10/764;G06V10/80;G06V10/82;G06F40/242;G06F40/289;G06N3/0464;G06N3/049;G06N3/0499;G06N3/08 |
代理公司: | 济南金迪知识产权代理有限公司 37219 | 代理人: | 杨树云 |
地址: | 250199 山*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 transformer 多模态 特征 融合 在押 人员 情感 识别 方法 设备 介质 | ||
1.一种基于Transformer进行多模态特征融合的在押人员情感识别方法,其特征在于,包括步骤如下:
(1)特征提取:对文本、语音、微表情和肢体动作四个模态的数据包括文本数据、语音数据、微表情数据、肢体动作数据分别进行预处理:对四个模态的数据所包含的情感信息分别进行提取,获取对应的特征向量,使其符合不同模态对应的基于Transformer架构的多模态融合模型的输入要求;
文本数据是指在押人员与家属/亲友进行远程视频会见过程中对话的文字;语音数据是指在押人员与家属/亲友进行远程视频会见过程中对话的音频;微表情数据是指在押人员与家属/亲友进行远程视频会见过程中在押人员的面部微表情数据,面部微表情数据是指包含面部表情的视频;肢体动作数据是指监狱在押人员与家属/亲友进行远程视频会见过程中在押人员的肢体动作数据是指包含肢体躯干的视频信息;
(2)特征融合:采用基于Transformer架构的多模态融合模型将步骤(1)提取到的文本、语音、微表情和肢体动作四个模态的特征向量进行特征融合;
(3)训练基于Transformer架构的多模态融合模型:将步骤(1)预处理后的文本、语音、微表情和肢体动作四个模态的数据随机分成n组,每次取n-1组的数据作为训练集,依次执行步骤(1)至步骤(3),训练基于Transformer架构的多模态融合模型,剩下1组数据作为验证集,验证基于Transformer架构的多模态融合模型的效果,如此循环,做多次交叉验证,得到最优的基于Transformer架构的多模态融合模型作为情感识别模型;
(4)获取待情感识别的在押人员的文本数据、语音数据、微表情数据、肢体动作数据,依次通过步骤(1)、步骤(2)处理后,输入至步骤(3)训练好的情感识别模型进行情感识别;
所述步骤(2),包括步骤如下:
A、将步骤(1)提取到的文本、语音、微表情和肢体动作四个模态的特征向量输入到一层一维时间卷积层,如式(Ⅳ)所示:
式(Ⅳ)中,k{L,V,A,P}为针对不同模态,包括文本L、微表情V、语音A、肢体动作P不同的卷积核的大小,d为公共维数;是经过一维时间卷积层卷积后的特征向量,X{L,V,A,P}是未经过一维时间卷积层卷积操作的特征向量;
B、将位置信息PE嵌入到步骤A处理过的特征向量中;
C、将上述经过位置嵌入的不同模态的特征向量两两送入不同的交叉注意力模块,使一个模态从另一个模态接收信息;如式(Ⅴ)、式(Ⅵ)、式(Ⅶ)所示:
式(Ⅴ)表示交叉注意力模块的第0层输入为为得到的特征向量;
式(Ⅵ)表示交叉注意力模块的第i层中间变量等于i-1层的输出经过层归一化和模态V的特征向量加上第i-1层的输出一起输入第i层交叉注意力模块的结果;
式(Ⅶ)分别表示第i层中间变量经过前馈神经网络得到第i层交叉注意力模块的输出
fθ为第i个交叉注意力模块中前馈子层的参数,CMV→L表示经过交叉注意力模块实现的模态V向模态L的映射,LN表示层归一化;
D、将共享相同目标模态的跨模态Transformer模块的输出拼接起来,通过全连接层进行预测,具体包括:
首先,将共享相同目标模态的交叉注意力模块的输出拼接起来;
然后,通过一个自注意力Transformer序列模型来收集时间信息来进行预测;
最后,提取自注意力Transformer序列模型的最后元素,通过全连接层进行预测,将所述自注意力Transformer序列模型输出的最终的联合特征送到分类器进行情感识别;
分类器包括三层全连接层,将最终的联合特征向量进行降维、归一化操作,使其转化为一个二维向量,根据二维向量中对应位置数值的大小进行最终的情感分类,其中取值最高的情感类别即为输出的情感分类结果。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于山东大学,未经山东大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111098471.7/1.html,转载请声明来源钻瓜专利网。
- 基于Transformer+LSTM神经网络模型的商品销量预测方法及装置
- 一种基于Transformer模型自然场景文字识别方法
- 一种深度Transformer级联神经网络模型压缩算法
- 点云分割方法、系统、介质、计算机设备、终端及应用
- 基于Transformer的中文智能对话方法
- 一种基于改进Transformer模型的飞行器故障诊断方法和系统
- 一种基于Transformer模型的机器翻译模型优化方法
- 基于Transformer和增强交互型MPNN神经网络的小分子表示学习方法
- 基于U-Transformer多层次特征重构的异常检测方法及系统
- 基于EfficientDet和Transformer的航空图像中的飞机检测方法