[发明专利]一种基于李群论的多模态情感识别方法有效
申请号: | 201210466293.3 | 申请日: | 2012-11-16 |
公开(公告)号: | CN102968643A | 公开(公告)日: | 2013-03-13 |
发明(设计)人: | 王天江;刘芳;许春燕;杨勇;龚立宇;邵光普;舒禹程;曹守刚 | 申请(专利权)人: | 华中科技大学 |
主分类号: | G06K9/62 | 分类号: | G06K9/62 |
代理公司: | 华中科技大学专利中心 42201 | 代理人: | 朱仁玲 |
地址: | 430074 湖北*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种基于李群论的多模态情感识别方法,包括以下步骤:获取视频,并提取视频帧中图像区域的高斯型特征描述子,基于高斯型特征描述子对视频中的图像区域进行跟踪,根据视频子序列构建ARMA模型获取ARMA模型间的距离,根据ARMA模型之间的距离构建核函数,并进行情感表达分类,根据人体、脸部和手部的情感类别概率对人进行情感识别。本发明根据视频中所包含的人体姿态运动信息、手势和脸部表情信息来判断人的情感状态,是一个将视频数据映射到人体运动特征、手势特征和脸部表情特征,再从人体运动特征空间和脸部表情特征映射到状态空间的过程,并提出利用李群论进行多模态情感识别,提高模型进行情感识别的精确性。 | ||
搜索关键词: | 一种 基于 李群 多模态 情感 识别 方法 | ||
【主权项】:
1.一种基于李群论的多模态情感识别方法,其特征在于,包括以下步骤:步骤一,获取视频,并提取视频帧中图像区域的高斯型特征描述子,包括下述子步骤:(1.1)对于图像区域中的每个像素点而言,计算一个d维特征向量F(x,y),该特征向量F ( x , y ) = [ R , G , B , x , y , | I x | , | I y | , I x 2 + I y 2 ] , ]]> 其中d为正整数,R,G,B是像素点的颜色信息,x,y是像素点在水平和垂直方向的位置信息,|Ix|,|Iy|分别是像素点在水平方向和垂直方向的梯度信息,该图像区域所有像素点的特征向量构成图像的特征向量集合;(1.2)确定该图像区域对应的均值d维向量μ和协方差d维方阵,其中协方差矩阵Fk是图像区域中第k个像素点的特征向量,n是图像区域内像素点的总和,T表示矩阵的转置。(1.3)基于步骤(1.1)和(1.2)的结果并结合李群论构建高斯型特征描述子;步骤二,基于步骤一中得到的高斯型特征描述子,对视频中的图像区域进行跟踪,包括下述子步骤:(2.1)在视频的第一帧中选取脸部区域、手部区域和人体区域;(2.2)根据选取的脸部区域、手部区域和人体区域结合高斯型特征描述子构建跟踪模版;(2.3)根据构建的跟踪模版,利用粒子滤波方法对脸部区域、手部区域和人体区域进行跟踪,根据跟踪结果更新跟踪模版,并记录跟踪结果,以得到脸部区域、手部区域和人体区域对应的视频子序列X,该视频子序列的长度为b;;步骤三,根据步骤二得到的视频子序列构建ARMA模型;步骤四,获取ARMA模型间的距离;具体包括以下子步骤:(4.1)根据ARMA模型的参数获取估计观测矩阵O b T = [ C T , ( CA ) T , ( CA 2 ) T , . . . , ( CA b ) T ] ; ]]> (4.2)对于任何两个视频子序列对应的观测正交矩阵C1和C2,约束L为正定矩阵,在任何两个ARMA模型之间最短的欧氏距离可以表示为:D(X1,X2)2=minM||(C1-C2L)T(C1-C2L)||F=minM||C1TC1-C1TC2L-LTC2TC1+LTC2TC2L||F=minM||I-C1TC2L-LTC2TC1+LT||LF其中,‖‖F代表Frobenius矩阵范式,I表示单位矩阵。(4.3)根据拉格朗日乘子法获得L=C2TC1,即ARMA模型之间的距离可表示为:D(X1,X2)2=||I-LTL||F;步骤五,根据ARMA模型之间的距离构建核函数,并进行情感表达分类,具体包括以下子步骤:(5.1)构建核函数K(X1,X2)=exp(-γD(X1,,X2)),其中γ是缩放常量;(5.2)基于此核函数,并利用SVM分类器,对人体、脸部和手部区域对应的视频子序列分别进行分类,以分别产生人体、脸部和手部的情感类别概率;步骤六,根据人体、脸部和手部的情感类别概率对人进行情感识别,具体包括以下子步骤:(6.1)SVM根据人体、脸部和手部的情感类别概率对每种情感状态得到一个后验概率,用pmn表示,其中m=1,2,3分别代表人体特征、手部特征和面部表情,n=1,2,…8分别代表不同的情感状态;(6.2)根据后验概率利用加权决策准则确定最终的情感状态,具体为,加权准则分别对每种情感状态由三种特征得到的概率求加权平均值,取加权平均值最大的情感状态作为最终输出的情感状态,具体公式如下:f = arg max n ( Σ m = 1,2,3 w m p mn ) ]]> 其中用w1、w2和w3分别表示人体运动特征、声音特征和面部表情对应的权值,f最大的情感状态作为最终输出的情感状态。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华中科技大学,未经华中科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201210466293.3/,转载请声明来源钻瓜专利网。