[发明专利]基于增强卷积和空时LSTM网络的双模态情感识别方法有效
申请号: | 201910743860.7 | 申请日: | 2019-08-13 |
公开(公告)号: | CN111401116B | 公开(公告)日: | 2022-08-26 |
发明(设计)人: | 闫静杰;朱康;朱宇康;吕方惠;卢官明;李海波 | 申请(专利权)人: | 南京邮电大学 |
主分类号: | G06V40/16 | 分类号: | G06V40/16;G06V10/764;G06V10/82;G06N3/04 |
代理公司: | 南京苏高专利商标事务所(普通合伙) 32204 | 代理人: | 柏尚春 |
地址: | 210003 江苏*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 增强 卷积 lstm 网络 双模 情感 识别 方法 | ||
1.一种基于增强卷积和空时LSTM网络的双模态情感识别方法,其特征在于,包括如下步骤:
(1)截取数据库中视频的主要部分,满足相同长度并对其分帧;
(2)检测数据库中每个视频人脸、动作的空时特征点,根据每帧图片设置对应特征点处的权重值,形成立方体Attention部分权重图;
(3)构建基于立方体Attention增强卷积和空时LSTM的结合网络;
(4)通过上述步骤处理的表情、动作视频分别提取特征,将获得的表情和姿态特征串联融合并输入SVM分类器、softmax层,输出得到分类结果;
步骤(3)中结合网络包括的跨接立方体Attetion的VGG16卷积单元由5组卷积层组成,每组卷积层包括至少2个卷积层以及1个池化层,5组卷积层分别为CONV1、CONV2、CONV3、CONV4和CONV5,其中CONV1和CONV2分别含有两个卷积层和一个最大池化层,其参数分别如下所示:
CONV1:f=3,p=1,s=1,d=64
CONV2:f=3,p=1,s=1,d=128
Maxpooling:f=2,s=2
其中f表示卷积核或池化的大小,p为填充值,s表示卷积核或池化的步长,d表示卷积核数量,在CONV3和CONV4个卷积单元上分别跨接一个立方体Attention单元。
2.根据权利要求1所述的一种基于增强卷积和空时LSTM网络的双模态情感识别方法,其特征在于,步骤(3)中的结合网络包括三个处理单元:跨接立方体Attention的VGG16卷积单元、空间LSTM单元和时间LSTM单元。
3.根据权利要求1所述的一种基于增强卷积和空时LSTM网络的双模态情感识别方法,其特征在于,步骤(3)中结合网络包括的空间LSTM单元,通过基于立方体Attention的增强VGG16网络获取与表情姿态相关的增强深度纹理特征,其卷积层参数如下所示:
CONV5:f=3,p=1,s=1,d=512
得到14*14*512的特征图,输出的特征图大小为14*14,有512个通道即有512张特征图,将14*14共196个位置上沿着通道方向构成196个特征向量,每个向量为512维,这196个特征向量对应着输入的一帧图像的一个小区域,将每一个特征向量作为LSTM的输入,每张原始的表情或者姿态图像通过LSTM学习,获得融合区域相关性一个深度特征,作为下一步时间LSTM的输入。
4.根据权利要求1所述的一种基于增强卷积和空时LSTM网络的双模态情感识别方法,其特征在于,步骤(3)中结合网络包括的时间LSTM单元,空间LSTM输出一组含有一张图片的不同区域相关信息的特征向量作为输入,输入到LSTM中,进一步提取时间上的相关性。
5.根据权利要求1所述的一种基于增强卷积和空时LSTM网络的双模态情感识别方法,其特征在于,步骤(3)中结合网络的三个单元处理一帧图像,处理方法如下:将一个视频分帧后的所有图像经过上述网络的处理,后一帧的图像在时间LSTM单元处综合本帧和上一帧的时间LSTM特征,最终得到一个表情或动作视频的增强情感特征。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京邮电大学,未经南京邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910743860.7/1.html,转载请声明来源钻瓜专利网。