[发明专利]基于多层增强HMM的语音-视觉融合的情感识别方法有效
申请号: | 201210459172.6 | 申请日: | 2012-11-15 |
公开(公告)号: | CN102930298A | 公开(公告)日: | 2013-02-13 |
发明(设计)人: | 吕坤;贾云得;邹文泽;张欣 | 申请(专利权)人: | 北京理工大学 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06K9/66;G06K9/00 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 100081 北京*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 多层 增强 hmm 语音 视觉 融合 情感 识别 方法 | ||
1.一种多层增强HMM的语音-视觉融合的情感识别方法,用于识别情感视频中的人的情感,所述情感包括:中性、高兴、生气、惊讶、恐惧、悲伤、厌恶;所述情感视频是指包含人脸表情、肩部运动和语音的视频数据,并且每段情感视频都开始于中性表情;其特征在于:所述多层增强HMM的语音-视觉融合的情感识别方法包括2部分:训练过程和识别过程;
所述训练过程的具体实施步骤如下:
步骤一、对训练数据中的情感视频数据进行预处理;
将每一种情感的训练数据称为一个训练样本集;一个训练样本集中的训练样本数量用R表示,R≥20;分别对每个训练样本集中的每个情感视频数据做预处理,得到表情观察向量序列、肩部观察向量序列和音频观察向量序列;一个训练样本集中的全部情感视频数据在预处理后,得到的表情观察向量序列的集合称为表情特征数据流,得到的肩部观察向量序列的集合称为肩部特征数据流,得到的音频观察向量序列的集合称为音频特征数据流,这三种特征数据流用符号Xv表示,v∈{a,f,s};其中,a表示音频,f表示表情,s表示肩部;表示v特征数据流中的第r个观察向量序列音频观察向量序列表情观察向量序列肩部观察向量序列;1≤r≤R;
所述对每个训练样本集中的每个情感视频数据做预处理,得到表情观察向量序列和肩部观察向量序列的具体步骤为:
第1步:从每个情感视频中以va的采样率提取m帧图像组成一个图像序列,va≥5赫兹,m=va×ta,ta为情感视频的时间长度;
第2步:依次从每个图像序列中的各帧图像中提取θ个脸部表情特征值,分别用T1至Tθ表示,θ≥5;
所述脸部表情特征值包括:脸部几何特征值;脸部纹理特征值;
第3步:为了解决因不同人脸型不同造成的对脸部表情特征值T1至Tθ的影响,对所有图像的脸部表情特征值T1至Tθ进行归一化处理,具体为:
第3.1步:从全部图像序列中找出包含待处理图像中人脸的所有图像序列;所述待处理图像为当前等待做归一化处理的图像;
第3.2步:分别计算经过第3.1步处理后得到的包含待处理图像中人脸的所有图像序列的第一帧图像中脸部表情特征值T1的均值、T2的均值、……、Tθ的均值,分别用至表示;
第3.3步:用对待处理图像的脸部表情特征值T1进行归一化处理,归一化处理后的脸部表情特征值T1用符号T′1表示,用对待处理图像的脸部表情特征值T2进行归一化处理,归一化处理后的脸部表情特征值T2用符号T′2表示,……;以此类推,用对待处理图像的脸部表情特征值Tθ进行归一化处理,归一化处理后的脸部表情特征值Tθ用符号T′θ表示,
第4步:获得每个图像序列中各帧图像的表情观察向量,用Vq表示,1≤q≤m;一个图像序列中第q帧图像的表情观察向量Vq由经过第3步归一化处理后的θ个特征值组成,Vq=[fq1,fq2,……,fqθ]T,fq1为该图像序列的第q帧图像中经过归一化处理的第1个脸部表情特征值T′1,fq2为该图像序列的第q帧图像中经过归一化处理的第2个脸部表情特征值T′2,……,以此类推,fqθ为该图像序列的第q帧图像中经过归一化处理的第θ个脸部表情特征值T′θ;
第5步:对于一个情感视频,使用矩阵M来表示其表情观察向量序列,M=[V1,V2,……,Vm]∈Rθ×m;
第6步:依次从每个图像序列中的各帧图像中提取δ个肩部运动特征值,分别用L1至Lδ表示,δ≥5;
第7步:为了解决因不同人体型不同造成的对肩部运动特征值L1至Lδ的影响,对所有图像的肩部运动特征值L1至Lδ进行归一化处理,具体为:
第7.1步:从全部图像序列中找出包含待处理图像中人脸的所有图像序列;所述待处理图像为当前等待做归一化处理的图像;
第7.2步:分别计算经过第7.1步处理后得到的包含待处理图像中人脸的所有图像序列的第一帧图像中肩部运动特征值L1的均值、L2的均值、……、Lδ的均值,分别用至表示;
第7.3步:用对待处理图像的肩部运动特征值L1进行归一化处理,归一化处理后的肩部运动特征值L1用符号L′1表示,用对待处理图像的肩部运动特征值L2进行归一化处理,归一化处理后的肩部运动特征值L2用符号L′2表示,……;以此类推,用对待处理图像的肩部运动特征值Lδ进行归一化处理,归一化处理后的肩部运动特征值Lδ用符号L′δ表示,
第8步:获得每个图像序列中各帧图像的肩部观察向量,用V″q表示,1≤q≤m;一个图像序列中第q帧图像的肩部观察向量V″q由经过第7步归一化处理后的δ个肩部运动特征值组成,V″q=[f″q1,f″q2,……,f″qδ]T,f″q1为该图像序列的第q帧图像中经过归一化处理的第1个肩部运动特征值L′1,f″q2为该图像序列的第q帧图像中经过归一化处理的第2个肩部运动特征值L′2,……,以此类推,f″qδ为该图像序列的第q帧图像中经过归一化处理的第δ个肩部运动特征值L′δ;
第9步:对于一个情感视频,使用矩阵M″来表示其肩部观察向量序列,M″=[V″1,V″2,……,V″m]∈Rδ×m;
步骤一中所述对每个训练样本集中的每个情感视频数据做预处理,得到音频观察向量序列的具体步骤为:
步骤a:从每个情感视频中以vb的采样率提取p个音频帧组成一条音频序列,vb≥5赫兹,p=vb×ta;
步骤b:依次从每条音频序列的各音频帧中提取α个音频特征值,分别用F1~Fα表示,α≥4;
所述音频特征值包括:信号强度;短时过零率;基音频率;共振峰频率;线性预测倒谱系数;线谱对参数;Mel频率倒谱系数;感知线性预测倒谱系数;
步骤c:对所有音频帧的音频特征值F1~Fα进行归一化处理,具体为:
步骤c.1:找出与待处理音频帧为同一发声人物的所有中性情感的音频序列;所述待处理音频帧为当前等待做归一化处理的音频帧;
步骤c.2:分别计算经过步骤c.1处理后得到的与待处理音频帧为同一发声人物的所有中性情感的音频序列中各音频帧的音频特征值F1的均值、F2的均值、……、Fα的均值,分别用至表示;
步骤c.3:用对待处理音频帧的音频特征值F1进行归一化处理,归一化处理后的音频特征值F1用符号F′1表示,用对待处理音频帧的音频特征值F2进行归一化处理,归一化处理后的音频特征值F2用符号F′2表示,……;以此类推,用对待处理音频帧的音频特征值Fα进行归一化处理,归一化处理后的音频特征值Fα用符号F′α表示,
步骤d:获得每个音频序列中各音频帧的音频观察向量,用V′t表示,1≤t≤p;一个音频序列中的第t帧音频帧的音频观察向量V′t由经过归一化处理后的α个特征值组成,V′t=[f′t1,f′t2,……,f′tα]T,f′t1为该音频序列的第t帧音频帧中经过归一化处理的第1个音频特征值F′1,f′t2为该音频序列的第t帧音频帧中经过归一化处理的第2个音频特征值F′2,……,以此类推,f′tα为该音频序列的第t帧音频帧中经过归一化处理的第α个音频特征值F′α;
步骤f:对于一个情感视频,使用矩阵M′来表示其音频观察向量序列,M′=[V′1,V′2,……,V′p]∈Rα×p;
步骤二、建立MBHMM分类器;
在步骤一操作的基础上,建立MBHMM分类器;所述MBHMM分类器包括第1层整体分类器、第2层整体分类器和第3层整体分类器;每层整体分类器由从左向右的K′个连续型HMM分量分类器组合而成,1≤K′≤K,K的值由人为预先设定,4≤K≤10;三层整体分类器中连续型HMM分量分类器的模型参数表示为λ={N,A,wi,d,μi,d,Ui,d,π};其中,N表示模型的状态数;π表示状态初始概率;A为状态转移概率矩阵,A={ai,j},1≤i,j≤N,ai,j表示从状态Si转移到状态Sj的概率;
用S={S1,S2,……,SN}表示状态集合,Si=i;
观察概率密度函数为混合高斯密度函数,如公式(1)所示;
其中,bt′(i)表示t′时刻状态为Si时的观察概率密度函数;Ot′是t′时刻的观察向量,即样本在t′时刻的表情观察向量或肩部观察向量或音频观察向量;N(Ot′,μi,d,Ui,d)表示状态Si的第d个高斯概率密度函数,1≤d≤D,D为混合高斯密度函数的混合数,2≤D≤5;wi,d,μi,d,Ui,d分别表示状态Si的第d个高斯概率密度函数的混合权重、均值向量和协方差矩阵;
第1层整体分类器和第2层整体分类器中的连续型HMM分量分类器的状态数N=5;第3层整体分类器中的连续型HMM分量分类器的状态数N=3;
当N=5时,设定π为[1 0 0 0 0],同时设定状态转移概率矩阵A的初值为:
当N=3时,设定π为[1 0 0],同时设定状态转移概率矩阵A的初值为:
设定高斯概率密度函数的混合权重wi,d的初始值为高斯概率密度函数的协方差矩阵Ui,d的初始值是一个行数和列数均为P的对角协方差矩阵:
当观察向量Ot′是表情观察向量时,P=θ;当观察向量Ot′是肩部观察向量时,P=δ;当观察向量Ot′是音频观察向量时,P=α;
高斯概率密度函数的均值向量μi,d的初始值产生方法为:将输入观察序列分成N段,然后用K均值聚类算法产生高斯概率密度函数的均值向量μi,d的初始值;
步骤三、训练MBHMM分类器;
在步骤二操作的基础上,同时训练C个MBHMM分类器,C表示情感类别的数量;即:对应每一种情感,训练一个MBHMM分类器;用φc表示第c种情感对应的MBHMM分类器,1≤c≤C;
使用第c种情感的训练样本集对MBHMM分类器φc进行训练的过程为:
步骤1:使用变量L,并设定变量L的初始值为1,然后执行步骤2至步骤11的操作;
步骤2:用表示MBHMM分类器φc中第L层整体分类器,用WL(r)表示输入到整体分类器的特征数据流Xv中的第r个观察向量序列的权重;当L=1时,将带有权重WL(r)的音频特征数据流Xa输入到整体分类器WL(r)=1/R;当L=2时,将带有权重WL(r)的表情特征数据流Xf输入到整体分类器当L=3时,将带有权重WL(r)的肩部特征数据流Xs输入到整体分类器
步骤3:用表示整体分类器中包含的连续型HMM分量分类器的个数,并设定的初始值为K;使用变量k,并设定变量k的初始值为1;然后执行步骤4至步骤10的操作;
步骤4:用表示整体分类器中的第k个连续型HMM分量分类器;将步骤2中所述输入到整体分类器中的特征数据流Xv输入到连续型HMM分量分类器中,该特征数据流中的第r个观察向量序列的权重为wk(r),1≤r≤R;当k=1时,wk(r)=WL(r);
步骤5:使用EM算法迭代调整步骤4中所述连续型HMM分量分类器的模型参数,得到连续型HMM分量分类器的最优模型参数,其具体操作为:
步骤5.1:通过公式(2)计算所述连续型HMM分量分类器中各观察向量序列的前向概率,1≤r≤R;
其中,表示连续型HMM分量分类器在t1时刻处于状态Si,并且从第1时刻到t1时刻出现Or,1,Or,2,…,的概率,也称为前向概率;2≤t1≤Tr;当L=1时,Tr=p;当L=2或3时,Tr=m;αr,1(i)=π(i)b1(i);Or,1,Or,2,…,表示第r个样本在第1时刻至t1时刻的观察向量;
步骤5.2:通过公式(3)计算所述连续型HMM分量分类器中各观察向量序列的后向概率;
其中,表示连续型HMM分量分类器在t2时刻处于状态Sj,并且从(t2+1)时刻到Tr时刻出现的概率,也称为后向概率;1≤t2≤Tr-1;当L=1时,Tr=p;当L=2或3时,Tr=m;表示第r个样本在第(t2+1)时刻至Tr时刻的观察向量;
步骤5.3:通过公式(4)计算所述连续型HMM分量分类器中各观察向量序列的概率Pr;
其中,表示连续型HMM分量分类器在Tr时刻的状态取值;当L=1时,Tr=p;当L=2或3时,Tr=m;表示连续型HMM分量分类器在初始时刻的状态取值;
步骤5.4:使用公式(5)至公式(9),利用各观察向量序列在步骤5.1中得到的前向概率步骤5.2中得到的后向概率和步骤5.3得到的观察向量序列的概率Pr重估连续型HMM分量分类器的模型参数A、wi,d、μi,d和Ui,d;
其中,ξr,t′(i,d)表示第r个样本在t′时刻的观察向量Or,t′在连续型HMM分量分类器的状态Si的第d个高斯密度函数下的概率;
其中,ξr,t′(i,d′)表示第r个样本在t′时刻的观察向量Or,t′在连续型HMM分量分类器的状态Si的第d′个高斯密度函数下的概率;
其中,当L=1时,Tr=p;当L=2或3时,Tr=m;
步骤5.5:判断连续型HMM分量分类器的模型参数A、wi,d、μi,d和Ui,d是否均收敛;如非均收敛,返回到步骤5.1;否则,则将步骤5.4得到的A、wi,d、μi,d和Ui,d以及步骤二设定的状态初始概率π作为连续型HMM分量分类器的最优模型参数;
步骤6:使用步骤4中所述输入到连续型HMM分量分类器的特征数据流Xv验证步骤5得到的连续型HMM分量分类器具体验证方法为:用表示观察向量序列是否被连续型HMM分量分类器正确分类,如果观察向量序列被正确分类,设定否则,设定
步骤7:通过公式(14)计算连续型HMM分量分类器的训练误差,用表示;
步骤8:使用变量k′,并设定k′=k+1;
步骤9:通过公式(15)依次计算输入到第k′个连续型HMM分量分类器的观察向量序列的权重,用wk′(r)表示,1≤r≤R;
其中,Zk′是归一化因子,
步骤10:如果此时k≠K,并且的值不大于某一预先设定值σ,0<σ≤0.5,则令k=k′,wk(r)=wk′(r),然后返回到步骤4;否则,得到整体分类器令然后执行步骤11;
步骤11:判断变量L的值是否小于3,如果L<3,则执行步骤12至步骤16;如果L≥3,则得到MBHMM分类器φc,结束操作;
步骤12:使用步骤2中所述输入到第L层整体分类器的特征数据流Xv验证步骤10得到的整体分类器具体验证方法为:用表示观察向量序列是否被整体分类器正确分类,如果观察向量序列被正确分类,设定
步骤13:通过公式(17)计算整体分类器的训练误差,用表示;
步骤14:使用变量L′,并设定L′=L+1;
步骤15:通过公式(18)依次计算输入到整体分类器的特征数据流中的第r个观察向量序列的权重,用WL′(r)表示;
其中,Z′L′是归一化因子,
步骤16:令L=L′,WL(r)=WL′(r),然后返回到步骤2;
所述识别过程的具体实施步骤如下:
步骤四、对待识别情感视频x进行预处理,得到待识别情感视频的表情观察向量序列xa、肩部观察向量序列xf和音频观察向量序列xs;
所述得到待识别情感视频x的表情观察向量序列和肩部观察向量序列的具体步骤与训练过程的步骤一中所述得到表情观察向量序列和肩部观察向量序列的具体步骤一致;
所述得到待识别情感视频的音频观察向量序列的具体步骤与训练过程的步骤一中所述得到音频观察向量序列的具体步骤为一致;
步骤五、判断待识别情感视频的情感类别,具体过程为:
第a步:将待识别情感视频的音频观察向量序列xa作为每一种情感的MBHMM分类器φc的第1层整体分类器中的每一个连续型HMM分量分类器的观察序列;将待识别情感视频的表情观察向量序列xf作为每一种情感的MBHMM分类器φc的第2层整体分类器中的每一个连续型HMM分量分类器的观察序列;将待识别情感视频的肩部观察向量序列xs作为每一种情感的MBHMM分类器φc的第3层整体分类器中的每一个连续型HMM分量分类器的观察序列;
第b步:分别计算待识别情感视频x的观察向量序列xa、xf和xs在MBHMM分类器φc中对应连续型HMM分量分类器下的概率
第c步:通过公式(19)计算待识别情感视频x的观察向量序列xa、xf和xs,在MBHMM分类器φc中对应整体分类器下的概率
第d步:通过公式(20)计算待识别情感视频x,在MBHMM分类器φc下的概率Pc;
第e步:从第d步得到的概率Pc中找到最大值,得到该最大值的MBHMM分类器对应的情感即为待识别情感视频所属的情感类别。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京理工大学,未经北京理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210459172.6/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种单次模压连续印刷工艺及装置
- 下一篇:一种用于筒体焊接接长的装置