[发明专利]基于多层增强HMM的语音-视觉融合的情感识别方法有效

申请号：	201210459172.6	申请日：	2012-11-15
公开（公告）号：	CN102930298A	公开（公告）日：	2013-02-13
发明（设计）人：	吕坤;贾云得;邹文泽;张欣	申请（专利权）人：	北京理工大学
主分类号：	G06K9/62	分类号：	G06K9/62;G06K9/66;G06K9/00
代理公司：	暂无信息	代理人：	暂无信息
地址：	100081 北京***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于多层增强 hmm 语音视觉融合情感识别方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种多层增强HMM的语音-视觉融合的情感识别方法，用于识别情感视频中的人的情感，所述情感包括：中性、高兴、生气、惊讶、恐惧、悲伤、厌恶；所述情感视频是指包含人脸表情、肩部运动和语音的视频数据，并且每段情感视频都开始于中性表情；其特征在于：所述多层增强HMM的语音-视觉融合的情感识别方法包括2部分：训练过程和识别过程；

所述训练过程的具体实施步骤如下：

步骤一、对训练数据中的情感视频数据进行预处理；

将每一种情感的训练数据称为一个训练样本集；一个训练样本集中的训练样本数量用R表示，R≥20；分别对每个训练样本集中的每个情感视频数据做预处理，得到表情观察向量序列、肩部观察向量序列和音频观察向量序列；一个训练样本集中的全部情感视频数据在预处理后，得到的表情观察向量序列的集合称为表情特征数据流，得到的肩部观察向量序列的集合称为肩部特征数据流，得到的音频观察向量序列的集合称为音频特征数据流，这三种特征数据流用符号X^v表示，v∈{a,f,s}；其中，a表示音频，f表示表情，s表示肩部；表示v特征数据流中的第r个观察向量序列音频观察向量序列表情观察向量序列肩部观察向量序列；1≤r≤R；

所述对每个训练样本集中的每个情感视频数据做预处理，得到表情观察向量序列和肩部观察向量序列的具体步骤为：

第1步：从每个情感视频中以v_a的采样率提取m帧图像组成一个图像序列，v_a≥5赫兹，m=v_a×t_a，t_a为情感视频的时间长度；

第2步：依次从每个图像序列中的各帧图像中提取θ个脸部表情特征值，分别用T₁至T_θ表示，θ≥5；

所述脸部表情特征值包括：脸部几何特征值；脸部纹理特征值；

第3步：为了解决因不同人脸型不同造成的对脸部表情特征值T₁至T_θ的影响，对所有图像的脸部表情特征值T₁至T_θ进行归一化处理，具体为：

第3.1步：从全部图像序列中找出包含待处理图像中人脸的所有图像序列；所述待处理图像为当前等待做归一化处理的图像；

第3.2步：分别计算经过第3.1步处理后得到的包含待处理图像中人脸的所有图像序列的第一帧图像中脸部表情特征值T₁的均值、T₂的均值、……、T_θ的均值，分别用至表示；

第3.3步：用对待处理图像的脸部表情特征值T₁进行归一化处理，归一化处理后的脸部表情特征值T₁用符号T′₁表示，用对待处理图像的脸部表情特征值T₂进行归一化处理，归一化处理后的脸部表情特征值T₂用符号T′₂表示，……；以此类推，用对待处理图像的脸部表情特征值T_θ进行归一化处理，归一化处理后的脸部表情特征值T_θ用符号T′_θ表示，

第4步：获得每个图像序列中各帧图像的表情观察向量，用V_q表示，1≤q≤m；一个图像序列中第q帧图像的表情观察向量V_q由经过第3步归一化处理后的θ个特征值组成，V_q=[f_q1,f_q2,……,f_qθ]^T，f_q1为该图像序列的第q帧图像中经过归一化处理的第1个脸部表情特征值T′₁，f_q2为该图像序列的第q帧图像中经过归一化处理的第2个脸部表情特征值T′₂，……，以此类推，f_qθ为该图像序列的第q帧图像中经过归一化处理的第θ个脸部表情特征值T′_θ；

第5步：对于一个情感视频，使用矩阵M来表示其表情观察向量序列,M=[V₁,V₂,……,V_m]∈R^θ×m；

第6步：依次从每个图像序列中的各帧图像中提取δ个肩部运动特征值，分别用L₁至L_δ表示，δ≥5；

第7步：为了解决因不同人体型不同造成的对肩部运动特征值L₁至L_δ的影响，对所有图像的肩部运动特征值L₁至L_δ进行归一化处理，具体为：

第7.1步：从全部图像序列中找出包含待处理图像中人脸的所有图像序列；所述待处理图像为当前等待做归一化处理的图像；

第7.2步：分别计算经过第7.1步处理后得到的包含待处理图像中人脸的所有图像序列的第一帧图像中肩部运动特征值L₁的均值、L₂的均值、……、L_δ的均值，分别用至表示；

第7.3步：用对待处理图像的肩部运动特征值L₁进行归一化处理，归一化处理后的肩部运动特征值L₁用符号L′₁表示，用对待处理图像的肩部运动特征值L₂进行归一化处理，归一化处理后的肩部运动特征值L₂用符号L′₂表示，……；以此类推，用对待处理图像的肩部运动特征值L_δ进行归一化处理，归一化处理后的肩部运动特征值L_δ用符号L′_δ表示，

第8步：获得每个图像序列中各帧图像的肩部观察向量，用V″_q表示，1≤q≤m；一个图像序列中第q帧图像的肩部观察向量V″_q由经过第7步归一化处理后的δ个肩部运动特征值组成，V″_q=[f″_q1,f″_q2,……,f″_qδ]^T，f″_q1为该图像序列的第q帧图像中经过归一化处理的第1个肩部运动特征值L′₁，f″_q2为该图像序列的第q帧图像中经过归一化处理的第2个肩部运动特征值L′₂，……，以此类推，f″_qδ为该图像序列的第q帧图像中经过归一化处理的第δ个肩部运动特征值L′_δ；

第9步：对于一个情感视频，使用矩阵M″来表示其肩部观察向量序列,M″=[V″₁，V″₂，……,V″_m]∈R^δ×m；

步骤一中所述对每个训练样本集中的每个情感视频数据做预处理，得到音频观察向量序列的具体步骤为：

步骤a：从每个情感视频中以v_b的采样率提取p个音频帧组成一条音频序列，v_b≥5赫兹，p=v_b×t_a；

步骤b：依次从每条音频序列的各音频帧中提取α个音频特征值，分别用F₁~F_α表示，α≥4；

所述音频特征值包括：信号强度；短时过零率；基音频率；共振峰频率；线性预测倒谱系数；线谱对参数；Mel频率倒谱系数；感知线性预测倒谱系数；

步骤c：对所有音频帧的音频特征值F₁~F_α进行归一化处理，具体为：

步骤c.1：找出与待处理音频帧为同一发声人物的所有中性情感的音频序列；所述待处理音频帧为当前等待做归一化处理的音频帧；

步骤c.2：分别计算经过步骤c.1处理后得到的与待处理音频帧为同一发声人物的所有中性情感的音频序列中各音频帧的音频特征值F₁的均值、F₂的均值、……、F_α的均值，分别用至表示；

步骤c.3：用对待处理音频帧的音频特征值F₁进行归一化处理，归一化处理后的音频特征值F₁用符号F′₁表示，用对待处理音频帧的音频特征值F₂进行归一化处理，归一化处理后的音频特征值F₂用符号F′₂表示，……；以此类推，用对待处理音频帧的音频特征值F_α进行归一化处理，归一化处理后的音频特征值F_α用符号F′_α表示，

步骤d：获得每个音频序列中各音频帧的音频观察向量，用V′_t表示，1≤t≤p；一个音频序列中的第t帧音频帧的音频观察向量V′_t由经过归一化处理后的α个特征值组成，V′_t=[f′_t1,f′_t2,……,f′_tα]^T，f′_t1为该音频序列的第t帧音频帧中经过归一化处理的第1个音频特征值F′₁，f′_t2为该音频序列的第t帧音频帧中经过归一化处理的第2个音频特征值F′₂，……，以此类推，f′_tα为该音频序列的第t帧音频帧中经过归一化处理的第α个音频特征值F′_α；

步骤f：对于一个情感视频，使用矩阵M′来表示其音频观察向量序列，M′=[V′₁，V′₂,……,V′_p]∈R^α×p；

步骤二、建立MBHMM分类器；

在步骤一操作的基础上，建立MBHMM分类器；所述MBHMM分类器包括第1层整体分类器、第2层整体分类器和第3层整体分类器；每层整体分类器由从左向右的K′个连续型HMM分量分类器组合而成，1≤K′≤K，K的值由人为预先设定，4≤K≤10；三层整体分类器中连续型HMM分量分类器的模型参数表示为λ={N,A,w_i,d,μ_i,d,U_i,d,π}；其中，N表示模型的状态数；π表示状态初始概率；A为状态转移概率矩阵，A={a_i,j}，1≤i,j≤N，a_i，j表示从状态S_i转移到状态S_j的概率；

用S={S₁,S₂,……,S_N}表示状态集合，S_i=i；

观察概率密度函数为混合高斯密度函数，如公式（1）所示；

bt′(i)=Σd=1Dwi,dN(Ot′,μi,d,Ui,d)---(1)]]>

其中，b_t′(i)表示t′时刻状态为S_i时的观察概率密度函数；O_t′是t′时刻的观察向量，即样本在t′时刻的表情观察向量或肩部观察向量或音频观察向量；N(O_t′,μ_i,d,U_i,d)表示状态S_i的第d个高斯概率密度函数，1≤d≤D，D为混合高斯密度函数的混合数，2≤D≤5；w_i,d,μ_i,d,U_i,d分别表示状态S_i的第d个高斯概率密度函数的混合权重、均值向量和协方差矩阵；

第1层整体分类器和第2层整体分类器中的连续型HMM分量分类器的状态数N=5；第3层整体分类器中的连续型HMM分量分类器的状态数N=3；

当N=5时，设定π为[1 0 0 0 0]，同时设定状态转移概率矩阵A的初值为：0.50.500000.50.500000.50.500000.50.500001;]]>

当N=3时，设定π为[1 0 0]，同时设定状态转移概率矩阵A的初值为：

0.50.5000.50.5001;]]>

设定高斯概率密度函数的混合权重w_i,d的初始值为高斯概率密度函数的协方差矩阵U_i,d的初始值是一个行数和列数均为P的对角协方差矩阵：

0.2500...000.250...0000.25...0..............000...0.25;]]>

当观察向量O_t′是表情观察向量时，P=θ；当观察向量O_t′是肩部观察向量时，P=δ；当观察向量O_t′是音频观察向量时，P=α；

高斯概率密度函数的均值向量μ_i,d的初始值产生方法为：将输入观察序列分成N段，然后用K均值聚类算法产生高斯概率密度函数的均值向量μ_i,d的初始值；

步骤三、训练MBHMM分类器；

在步骤二操作的基础上，同时训练C个MBHMM分类器，C表示情感类别的数量；即：对应每一种情感，训练一个MBHMM分类器；用φ_c表示第c种情感对应的MBHMM分类器，1≤c≤C；

使用第c种情感的训练样本集对MBHMM分类器φ_c进行训练的过程为：

步骤1：使用变量L，并设定变量L的初始值为1，然后执行步骤2至步骤11的操作；

步骤2：用表示MBHMM分类器φ_c中第L层整体分类器，用W_L(r)表示输入到整体分类器的特征数据流X^v中的第r个观察向量序列的权重；当L=1时，将带有权重W_L(r)的音频特征数据流X^a输入到整体分类器W_L(r)=1/R；当L=2时，将带有权重W_L(r)的表情特征数据流X^f输入到整体分类器当L=3时，将带有权重W_L(r)的肩部特征数据流X^s输入到整体分类器

步骤3：用表示整体分类器中包含的连续型HMM分量分类器的个数，并设定的初始值为K；使用变量k，并设定变量k的初始值为1；然后执行步骤4至步骤10的操作；

步骤4：用表示整体分类器中的第k个连续型HMM分量分类器；将步骤2中所述输入到整体分类器中的特征数据流X^v输入到连续型HMM分量分类器中，该特征数据流中的第r个观察向量序列的权重为w_k(r)，1≤r≤R；当k=1时，w_k(r)=W_L(r)；

步骤5：使用EM算法迭代调整步骤4中所述连续型HMM分量分类器的模型参数，得到连续型HMM分量分类器的最优模型参数，其具体操作为：

步骤5.1：通过公式（2）计算所述连续型HMM分量分类器中各观察向量序列的前向概率，1≤r≤R；

αr,t1(i)=bt1(i)Σjaj,iαr,t1-1(j)---(2)]]>

其中，表示连续型HMM分量分类器在t₁时刻处于状态S_i，并且从第1时刻到t₁时刻出现O_r，1，O_r，2，…,的概率，也称为前向概率；2≤t₁≤T_r；当L=1时，T_r=p；当L=2或3时，T_r=m；α_r,1(i)=π(i)b₁(i)；O_r，1，O_r，2，…,表示第r个样本在第1时刻至t₁时刻的观察向量；

步骤5.2：通过公式（3）计算所述连续型HMM分量分类器中各观察向量序列的后向概率；

βr,t2(j)=Σibt2+1(i)aj,iβr,t2+1(i)---(3)]]>

其中，表示连续型HMM分量分类器在t₂时刻处于状态S_j，并且从(t₂+1)时刻到T_r时刻出现的概率，也称为后向概率；1≤t₂≤T_r-1；当L=1时，T_r=p；当L=2或3时，T_r=m；表示第r个样本在第(t₂+1)时刻至T_r时刻的观察向量；

步骤5.3：通过公式（4）计算所述连续型HMM分量分类器中各观察向量序列的概率P_r；

Pr=αr,p(qTrL)=βr,1(q1L)---(4)]]>

其中，表示连续型HMM分量分类器在T_r时刻的状态取值；当L=1时，T_r=p；当L=2或3时，T_r=m；表示连续型HMM分量分类器在初始时刻的状态取值；

步骤5.4：使用公式（5）至公式（9），利用各观察向量序列在步骤5.1中得到的前向概率步骤5.2中得到的后向概率和步骤5.3得到的观察向量序列的概率P_r重估连续型HMM分量分类器的模型参数A、w_i,d、μ_i,d和U_i,d；

ξr,t′(i,d)=αr,t′(i)βr,t′(i)Σiαr,t′(i)βr,t′(i)×wi,dN(Or,t′,μi,dUi,d)Σd′=1Dwi,d′N(Or,t′,μi,d′,Ui,d′)---(5)]]>

其中，ξ_r，t′(i,d)表示第r个样本在t′时刻的观察向量O_r，t′在连续型HMM分量分类器的状态S_i的第d个高斯密度函数下的概率；

wi,d=Σr[(1/P(xrv|θkc,L))Σt′ξr,t′(i,d)]Σr[(1/P(xrv|θkc,L))Σt′Σd′=1Dξr,t′(i,d′)]---(6)]]>

其中，ξ_r，t′(i,d′)表示第r个样本在t′时刻的观察向量O_r，t′在连续型HMM分量分类器的状态S_i的第d′个高斯密度函数下的概率；

μi,d=Σr[(1/P(xrv|θkc,L))Σt′ξr,t′(i,d)Or,t′]Σr[(1/P(xrv|θkc,L))Σt′ξr,t′(i,d)]---(7)]]>

Ui,d=Σr[(1/P(xrv|θkc,L))Σt′ξr,t′(i,d)(Or,t′-μi,d)(Or,t′-μi,d)T]Σr[(1/P(xrv|θkc,L))Σt′ξr,t′(i,d)]---(8)]]>

aj,i=Σr(1/Pr)Σt2=1Tr-1αr,t2(j)aj,ibt2+1(i)βr,t2+1(i)Σr(1/Pr)Σt2=1Tr-1αr,t2(j)βr,t2(j)---(9)]]>

其中，当L=1时，T_r=p；当L=2或3时，T_r=m；

步骤5.5：判断连续型HMM分量分类器的模型参数A、w_i,d、μ_i,d和U_i,d是否均收敛；如非均收敛，返回到步骤5.1；否则，则将步骤5.4得到的A、w_i,d、μ_i,d和U_i,d以及步骤二设定的状态初始概率π作为连续型HMM分量分类器的最优模型参数；

步骤6：使用步骤4中所述输入到连续型HMM分量分类器的特征数据流X^v验证步骤5得到的连续型HMM分量分类器具体验证方法为：用表示观察向量序列是否被连续型HMM分量分类器正确分类，如果观察向量序列被正确分类，设定否则，设定

步骤7：通过公式（14）计算连续型HMM分量分类器的训练误差，用表示；

Ekc,L=Σhkc,L(xrv)=-1wk(r)---(14)]]>

步骤8：使用变量k′，并设定k′=k+1；

步骤9：通过公式（15）依次计算输入到第k′个连续型HMM分量分类器的观察向量序列的权重，用w_k′(r)表示，1≤r≤R；

wk′(r)=wk(r)Zk′×e-hkc,L(xrv)×δk---(15)]]>

其中，Z_k′是归一化因子，Zk′=Σr(wk(r)×e-hkc,L(xrv)×δk),]]>δk=ln[(1-Ekc,L)/Ekc,L]2;]]>

步骤10：如果此时k≠K，并且的值不大于某一预先设定值σ，0<σ≤0.5，则令k=k′，w_k(r)=w_k′(r)，然后返回到步骤4；否则，得到整体分类器令然后执行步骤11；

步骤11：判断变量L的值是否小于3，如果L<3，则执行步骤12至步骤16；如果L≥3，则得到MBHMM分类器φ_c，结束操作；

步骤12：使用步骤2中所述输入到第L层整体分类器的特征数据流X^v验证步骤10得到的整体分类器具体验证方法为：用表示观察向量序列是否被整体分类器正确分类，如果观察向量序列被正确分类，设定HLc(xrv)=1;]]>否则，设定HLc(xrv)=-1;]]>

步骤13：通过公式（17）计算整体分类器的训练误差，用表示；

ELc=ΣHLc(xrv)=-1WL(r)---(17)]]>

步骤14：使用变量L′，并设定L′=L+1；

步骤15：通过公式（18）依次计算输入到整体分类器的特征数据流中的第r个观察向量序列的权重，用W_L′(r)表示；

WL′(r)=WL(r)ZL′′×e-HLc(xrv)×δL′---(18)]]>

其中，Z′_L′是归一化因子，ZL′′=Σr(WL(r)×e-HLc(vrv)×δL′),]]>δL′=ln[(1-ELc)/ELc]2;]]>

步骤16：令L=L′，W_L(r)=W_L′(r)，然后返回到步骤2；

所述识别过程的具体实施步骤如下：

步骤四、对待识别情感视频x进行预处理，得到待识别情感视频的表情观察向量序列x^a、肩部观察向量序列x^f和音频观察向量序列x^s；

所述得到待识别情感视频x的表情观察向量序列和肩部观察向量序列的具体步骤与训练过程的步骤一中所述得到表情观察向量序列和肩部观察向量序列的具体步骤一致；

所述得到待识别情感视频的音频观察向量序列的具体步骤与训练过程的步骤一中所述得到音频观察向量序列的具体步骤为一致；

步骤五、判断待识别情感视频的情感类别，具体过程为：

第a步：将待识别情感视频的音频观察向量序列x^a作为每一种情感的MBHMM分类器φ_c的第1层整体分类器中的每一个连续型HMM分量分类器的观察序列；将待识别情感视频的表情观察向量序列x^f作为每一种情感的MBHMM分类器φ_c的第2层整体分类器中的每一个连续型HMM分量分类器的观察序列；将待识别情感视频的肩部观察向量序列x^s作为每一种情感的MBHMM分类器φ_c的第3层整体分类器中的每一个连续型HMM分量分类器的观察序列；

第b步：分别计算待识别情感视频x的观察向量序列x^a、x^f和x^s在MBHMM分类器φ_c中对应连续型HMM分量分类器下的概率

第c步：通过公式（19）计算待识别情感视频x的观察向量序列x^a、x^f和x^s，在MBHMM分类器φ_c中对应整体分类器下的概率

P(xv|ψcL)=Σk=1KcLδkP(xv|θkc,L)KcL---(19)]]>