[发明专利]一种多特征人物情绪识别方法有效
申请号: | 202110793285.9 | 申请日: | 2021-07-14 |
公开(公告)号: | CN113673325B | 公开(公告)日: | 2023-08-15 |
发明(设计)人: | 钟谭媛;陈志;李玲娟;岳文静 | 申请(专利权)人: | 南京邮电大学 |
主分类号: | G06V40/70 | 分类号: | G06V40/70;G06V10/772;G06V10/774;G06V10/764;G06V10/82;G06N3/0464;G06N3/047;G06N3/048 |
代理公司: | 南京经纬专利商标代理有限公司 32200 | 代理人: | 叶连生 |
地址: | 210003 江苏*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 特征 人物 情绪 识别 方法 | ||
1.一种多特征人物情绪识别方法,其特征在于,包括以下步骤:
步骤S1、用户输入视频,使用1帧的采样步长,遍历视频所有帧,创建若干段16帧长度的剪辑;所述若干段16帧剪辑作为3D卷积神经网络的输入;
步骤S2、采用3D卷积神经网络对视频中的人物进行面部表情和身体动作的局部特征提取;对于每个输入,在conv5b层中构建一个7×7×512的特征映射,分别提取每个特征的空间位置,并沿512个通道将每个空间位置的值连接起来,得到输入的最终局部特征;其中输入视频的局部特征总数为7×7,每个得到的局部特征均为512维的向量;
步骤S3、对于输入的最终局部特征,在稀疏编码树根节点处使用MOD算法对输入的最终局部特征进行字典学习;所述MOD算法目标函数如下:
其中D=[g1,g2,...,gn]T表示字典矩阵,gi为字典原子;xi为输入特征向量;ωi表示xi对应字典原子gi的稀疏系数;T0表示稀疏表示系数中非零元素的个数;
步骤S3.1、训练样本集为
步骤S3.2、初始化字典;随机构造一个字典初值D(0)∈Rn×m,并对进行D(0)列归一化;
步骤S3.3、使用追踪算法逼近解,获得稀疏系数ωi如下:
步骤S3.4、根据样本X和稀疏系数矩阵W(k)更新字典如下:
步骤S3.5、当小于10-6时,停止迭代并输出最后的字典D;
步骤S4、使用支持向量机SVM进行分类器学习,对稀疏编码树进行训练;具体地,
步骤S4.1、将稀疏编码树的根节点初始化为活动节点a;在a处,使用步骤S3输出的字典D将输入的局部特征编码成稀疏编码;采用支持向量机SVM分类器在活动节点a处对已编码的输入特征进行粗分类;
步骤S4.2、基于粗分类标签,遵循分支规则进行分类;当分支到下一级子节点时,将该子节点作为下一个活动节点a,重复上述稀疏编码和粗分类步骤,直至所有情绪分类完毕,输出最终结果。
2.根据权利要求1所述的一种多特征人物情绪识别方法,其特征在于,所述步骤S4.2中的分支规则具体包括:
当粗分类结果由2个及以上混淆分类组成时,则从当前节点转移到一个专门训练的新子节点,进一步对粗分类结果进行细分类,最终输出只有单个类的识别结果。
3.根据权利要求1所述的一种多特征人物情绪识别方法,其特征在于,所述步骤S2中的3D卷积神经网络用于捕捉视频中的时间和空间的特征信息,包含8个卷积层,5个池化层,2个全连接层和1个softmax输出层,所有层的3D卷积核的尺寸为3×3×3,步长为1;第一层池化层的尺寸为1×2×2,步长为1,其余池化层的尺寸为2×2×2,步长为2;所述输入视频被调整大小为128×171,剪辑成为互不重叠的16帧片段并被作为网络输入。
4.根据权利要求1所述的一种多特征人物情绪识别方法,其特征在于,所述步骤S2中conv5b是在3D卷积神经网络中的最后一个卷积层使用的特征可视化,特征映射空间大小为7×7,通道数为512个,包含两个特征映射。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京邮电大学,未经南京邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110793285.9/1.html,转载请声明来源钻瓜专利网。