[发明专利]一种多特征人物情绪识别方法有效
申请号: | 202110793285.9 | 申请日: | 2021-07-14 |
公开(公告)号: | CN113673325B | 公开(公告)日: | 2023-08-15 |
发明(设计)人: | 钟谭媛;陈志;李玲娟;岳文静 | 申请(专利权)人: | 南京邮电大学 |
主分类号: | G06V40/70 | 分类号: | G06V40/70;G06V10/772;G06V10/774;G06V10/764;G06V10/82;G06N3/0464;G06N3/047;G06N3/048 |
代理公司: | 南京经纬专利商标代理有限公司 32200 | 代理人: | 叶连生 |
地址: | 210003 江苏*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 特征 人物 情绪 识别 方法 | ||
本发明公开了一种多特征人物情绪识别方法,首先通过使用3D卷积神经网络提取视频中面部与身体的局部时空特征,然后在稀疏编码树的框架下,使用MOD算法对所提取的特征向量进行字典学习得到稀疏编码,最后将稀疏编码作为输入在稀疏编码树节点处训练SVM分类器,不断分类,最终输出单一类别的情绪表征;本发明能够很好地适应于不同场景,具有较强的泛化能力,还能够提高在多遮挡环境的视频中人物情绪识别的准确率。
技术领域
本发明涉及特征识别技术领域,主要涉及一种多特征人物情绪识别方法。
背景技术
情绪识别是计算机视觉领域近几年来发展较快,研究较多的一个应用方向,研究领域涵盖模式识别、机器学习、心理、医学等一系列相关的学科。近年来,情绪识别已成为计算机视觉和人机交互领域中的一个重要研究课题,具有重要的理论意义与实际应用价值。
针对视频中的人物进行情绪识别主要涉及以下技术:
(1)3D卷积神经网络(C3D):它提取的特征封装了视频中与目标、场景、动作有关的信息,使得这些特征对不同的任务都有用,而不需要对每个任务都微调模型。C3D是好的描述符:通用、紧凑、简单、高效。本发明利用3D卷积网络对视频中人物面部和身体进行局部时空特征的提取,极大地提高了效率与有效性;
(2)稀疏编码树:它使用特定于节点的字典和分类器将输入的向量定向到子节点,子节点又有自己专门的字典和分类器,能够执行更准确地分类;
(3)MOD字典学习:它是一种期望最大值的字典学习方法,该方法通过迭代在训练过程中不断更新字典原子,使得稀疏表示的残差不断减小来满足收敛条件,最终得到具有良好判别性能的字典;
(4)支持向量机:用来训练分类器。
基于上述研究成果,本发明提出一种基于面部表情和身体动作的多特征人物情绪识别方法,旨在提高视频中的人物情绪识别的准确性。
发明内容
发明目的:本发明提供了一种多特征人物情绪识别方法,首先通过使用3D卷积神经网络提取视频中面部与身体的局部特征,然后在稀疏编码树的框架下,使用MOD算法对所提取的特征向量进行字典学习得到稀疏编码,最后将稀疏编码作为输入在稀疏编码树节点处训练SVM分类器,以完成情绪分类识别。
技术方案:为实现上述目的,本发明采用的技术方案为:
一种多特征人物情绪识别方法,包括以下步骤:
步骤S1、用户输入视频,使用1帧的采样步长,遍历视频所有帧,创建若干段16帧长度的剪辑;所述若干段16帧剪辑作为3D卷积神经网络的输入;
步骤S2、采用3D卷积神经网络对视频中的人物进行面部表情和身体动作的局部特征提取;对于每个输入,在conv5b层中构建一个7×7×512的特征映射,分别提取每个特征的空间位置,并沿512个通道将每个空间位置的值连接起来,得到输入的最终局部特征;其中输入视频的局部特征总数为7×7,每个得到的局部特征均为512维的向量;
步骤S3、对于输入的最终局部特征,在稀疏编码树根节点处使用MOD算法对输入的最终局部特征进行字典学习;所述MOD算法目标函数如下:
其中D=[g1,g2,…,gn]T表示字典矩阵,gi为字典原子;xi为输入特征向量;ωi表示xi对应字典原子gi的稀疏系数;T0表示稀疏表示系数中非零元素的个数;
步骤S3.1、训练样本集为
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京邮电大学,未经南京邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110793285.9/2.html,转载请声明来源钻瓜专利网。