[发明专利]基于线索神经网络的语音-视觉融合情感识别方法有效

专利信息
申请号: 201310304011.4 申请日: 2013-07-19
公开(公告)号: CN103400145A 公开(公告)日: 2013-11-20
发明(设计)人: 吕坤;张欣 申请(专利权)人: 北京理工大学
主分类号: G06K9/62 分类号: G06K9/62;G06K9/66;G06N3/02
代理公司: 暂无信息 代理人: 暂无信息
地址: 100081 *** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要: 发明提出的一种基于线索神经网络的语音-视觉融合情感识别方法,属于自动情感识别领域。其基本思想是:首先,分别使用人的正面脸部表情、侧面脸部表情和语音三个通道的特征数据,独立地训练一个神经网络来执行离散的情感类别的识别,训练过程中神经网络模型中的输出层加入4个线索(hint)节点,分别承载活跃度-评价度(activation-evaluation)空间中的4个粗粒度类别的线索(hint)信息。在线索信息的帮助下,神经网络权重的学习会产生更优的特征选择。然后,使用多模态融合模型对三个神经网络的输出结果进行融合,多模态融合模型也采用基于线索信息训练的神经网络。该方法具有较低的计算量,识别率高且鲁棒性好。对于训练数据较少的情况,效果更加明显。
搜索关键词: 基于 线索 神经网络 语音 视觉 融合 情感 识别 方法
【主权项】:
1.一种基于线索神经网络的语音-视觉融合情感识别方法,用于识别情感视频中人的情感,其特征在于:其识别过程包括2部分:训练过程和识别过程;所述训练过程的具体实施步骤包括步骤一至步骤四,具体为:步骤一、建立神经网络分类器;所述神经网络分类器为包含输入层、隐含层和输出层的三层结构神经网络;其输入层的节点数用符号nI表示,当所述神经网络分类器的输入为人的正面视角特征数据和侧面脸部表情特征数据时,nI=nS,10≤nS≤80;当所述神经网络分类器的输入为语音特征数据时,nI=nY,20≤nY≤200;所述神经网络分类器隐含层的节点数用符号nH表示,4≤nH≤10;所述神经网络分类器输出层包含2种节点,分别称为情感类别输出节点和线索节点;输出层的节点数用符号nO表示,nO=nL+nX;其中,nL表示情感类别输出节点的数量,每个情感类别输出节点对应一种情感类别,2≤nL≤15;nX表示线索节点的数量,在训练阶段,nX的取值为4,并且4个线索节点分别对应活跃度-评价度空间上的4种粗粒度情感类别,即活跃度-评价度空间上的四个象限,分别为:积极-正、消极-正、积极-负、消极-负;其中,积极和消极是活跃度-评价度空间中活跃度维度上的两个取值,正和负是活跃度-评价度空间中评价度维度上的两个取值;所述神经网络分类器为nI-nH-nO完全连接的拓扑结构;步骤二、在步骤一的基础上,使用第一训练样本集里的训练样本中人的正面视角特征数据、侧面脸部表情特征数据和语音特征数据分别训练一个神经网络分类器;第一训练样本集里包含nL种情感的训练数据,nL种情感中包含中性情感;每种情感的训练数据由多个训练样本对组成,每种情感的训练样本对的数量不小于20个;每个训练样本对由2条情感视频组成,分别为同步拍摄的正面视频和侧面视频;正面视频是包含人的正面脸部表情和语音的视频数据,侧面视频是包含人的侧面脸部表情的视频数据;每条情感视频都开始于中性表情;第一训练样本集里的每个正面视频和侧面视频均作了2种情感类别标注,一种是离散的情感类别标注,另一种是在活跃度-评价度空间的4种粗粒度情感类别标注;并且,每个训练样本对中的正面视频和侧面视频在离散的情感类别上的标注结果是一致的,在活跃度-评价度空间的粗粒度情感类别上的标注结果也是一致的;所述使用第一训练样本集里的训练样本中人的正面视角特征数据、侧面脸部表情特征数据和语音特征数据分别训练一个神经网络分类器的过程为:步骤2.1:依次对第一训练样本集里的每个训练样本对中的正面视频做预处理,得到正面视角特征数据和语音特征数据;对第一训练样本集里的每个训练样本对中的侧面视频做预处理,得到侧面视角特征数据;所述对第一训练样本集里的一个训练样本对中的正面视频做预处理,得到正面视角特征数据的操作步骤为:步骤a.1:从所述训练样本对中的正面视频中以均等的时间间隔提取nS帧图像,构成一个正面视角图像序列;步骤a.2:在步骤a.1中得到的正面视角图像序列中的第一帧图像中标识出20个正面脸部特征点;其中,第1、2正面脸部特征点分别位于右边眉毛和左边眉毛的眉头位置,分别用(x1,y1)、(x2,y2)表示;第3、4正面脸部特征点分别位于右边眉毛和左边眉毛的眉尾位置,分别用(x3,y3)、(x4,y4)表示;第5、6正面脸部特征点分别位于右边眼睛和左边眼睛的内眼角位置,分别用(x5,y5)、(x6,y6)表示;第7、8正面脸部特征点分别位于右边眼睛和左边眼睛的最低点,分别用(x7,y7)、(x8,y8)表示;第9、10正面脸部特征点分别位于右边眼睛和左边眼睛的外眼角位置,分别用(x9,y9)、(x10,y10)表示;第11、12正面脸部特征点分别位于右边眼睛和左边眼睛的最高点,分别用(x11,y11)、(x12,y12)表示;第13、14正面脸部特征点分别位于鼻翼的最右侧位置和鼻翼的最左侧位置,分别用(x13,y13)、(x14,y14)表示;第15正面脸部特征点位于鼻尖位置,用(x15,y15)表示;第16、17正面脸部特征点分别位于嘴角的最右侧位置和嘴角的最左侧位置,分别用(x16,y16)、(x17,y17)表示;第18、19正面脸部特征点分别位于唇部中心线与唇部轮廓线相交的最高点和最低点,分别用(x18,y18)、(x19,y19)表示;第20正面脸部特征点位于脸部中心线与脸部轮廓线相交的最低点,用(x20,y20)表示;步骤a.3:根据步骤a.2中得到的正面视角图像序列中的第一帧图像中的20个正面脸部特征点的位置,定位出该正面视角图像序列中除第一帧图像以外的后续帧图像中的20个正面脸部特征点;步骤a.4:依次计算步骤a.2中得到的正面视角图像序列中各帧图像的10个正面脸部表情特征值T1至T10,具体为:(1)两眼宽度的平均值,用T1表示,T1=(|x9-x5|+|x10-x6|)/2;(2)两眼高度的平均值,用T2表示,T2=(|y11-y7|+|y12-y8|)/2;(3)两支眉毛宽度的平均值,用T3表示,T3=(|x3-x1|+|x4-x2|)/2;(4)两支眉毛高度的平均值,用T4表示,T4=(|y3-y1|+|y4-y2|)/2;(5)内眼角和眉头之间垂直距离的均值,用T5表示,T5=(|y5-y1|+|y6-y2|)/2;(6)鼻尖和左右嘴角的垂直距离均值,用T6表示,T6=(|y16-y15|+|y17-y15|)/2;(7)嘴角和外眼角垂直距离的均值,用T7表示,T7=(|y16-y9|+|y17-y10|)/2;(8)嘴张开宽度,用T8表示,T8=|x17-x16|;(9)嘴张开高度,用T9表示,T9=|y18-y19|;(10)鼻尖和下巴的距离,用T10表示,T10=|y15-y20|;步骤a.5:使用步骤a.4中得到的正面视角图像序列中每帧图像的10个正面脸部表情特征值T1至T10构成该图像的特征向量,用符号Fq表示,Fq=[fq1,fq2,...,fq10]T;其中,1≤q≤nS,fq1为所述正面视角图像序列的第q帧图像中第1个正面脸部表情特征值T1,fq2为所述正面视角图像序列的第q帧图像中第2个正面脸部表情特征值T2,……,以此类推,fq10为所述正面视角图像序列的第q帧图像中第10个正面脸部表情特征值T10;步骤a.6:计算第一训练样本集中所有正面视频得到的正面视角图像序列中第一帧图像的特征向量的均值,用符号表示,其中,表示第一训练样本集中所有正面视频得到的正面视角图像序列中第一帧图像的第k个特征值的均值,1≤k≤10;步骤a.7:使用Fq之间的欧几里得距离表示步骤a.1中所述正面视角图像序列中第q帧图像的特征;Fq之间的欧几里得距离用符号DF(q)表示;DF(q)可通过公式(1)得到;DF(q)=(Σk=110(fqk-fk)2)1/2]]>   (1)步骤a.8:步骤a.1中所述正面视角图像序列中nS帧图像的特征DF(q)组成了该正面视频的正面视角特征数据;所述对第一训练样本集里的一个训练样本对中的正面视频做预处理,得到语音特征数据的操作步骤为:步骤b.1:从所述训练样本对中的正面视频中以均等的时间间隔提取nY个语音帧,构成一条语音序列;步骤b.2:依次从步骤b.1得到的语音序列的每个语音帧中提取α个音频特征值,分别用F1~Fα表示,α≥4;所述音频特征值包括:信号强度;短时过零率;基音频率;共振峰频率;线性预测倒谱系数LPCC;线谱对参数LSP;Mel频率倒谱系数MFCC;感知线性预测倒谱系数PLPCC;步骤b.3:从步骤b.2中所述语音序列里的一个语音帧提取的α个音频特征值组成一个音频特征向量,用Vt表示,Vt=[f′t1,f′t2,……,f′]T,1≤t≤nY;f′t1为步骤所述语音序列的第t帧语音帧中第1个音频特征值F1,f′t2为所述语音序列的第t帧语音帧中第2个音频特征值F2,……,以此类推,f′为所述语音序列的第t帧语音帧中第α个音频特征值Fα;步骤b.4:从第一训练数据集里找出与步骤b.1中所述正面视频中的音频为同一发声人物的所有中性情感的正面视频,并计算出由这些正面视频得到的语音序列中各语音帧对应的音频特征向量的均值,用符号表示,其中,表示由第一训练样本集中所有与步骤b.1中所述正面视频中的音频为同一发声人物的所有中性情感的正面视频得到的语音序列中各语音帧的第i个特征值的均值,1≤i<α;步骤b.5:使用步骤b.3中所述音频特征向量Vt和步骤b.4中所述音频特征向量的均值之间的距离表示步骤b.1得到的语音序列的第t个语音帧的特征;步骤b.3中所述音频特征向量Vt和步骤b.4中所述音频特征向量的均值之间的距离用符号DV(t)表示,DV(t)可通过公式(2)得到;DV(t)=(Σi=1α(fti-fifi)2)1/2]]>   (2)步骤b.6:步骤b.1中所述语音序列中nY个语音帧的特征DV(t)组成了该正面视频的语音特征数据;所述对第一训练样本集里的一个训练样本对中的侧面视频做预处理,得到侧面视角特征数据的操作步骤为:步骤c.1:从所述训练样本对中的侧面视频中以均等的时间间隔提取nS帧图像,构成一个侧面视角图像序列;步骤c.2:在步骤c.1中得到的侧面视角图像序列中的第一帧图像中标识出6个侧面脸部特征点;其中,第1侧面脸部特征点位于眉头位置,用(x1′,y1′)表示;第2侧面脸部特征点位于鼻尖位置,用(x′2,y′2)表示;第3侧面脸部特征点分别位于上唇与侧面脸部轮廓线相交的交点位置,用(x3′,y3′)表示;第4侧面脸部特征点位于嘴角位置,用(x′4,y′4)表示;第5侧面脸部特征点位于下唇与侧面脸部轮廓线相交的交点位置,用(x5′,y5′)表示;第6侧面脸部特征点位于耳孔位置,用(x′6,y′6)表示;步骤c.3:根据步骤c.2中得到的侧面视角图像序列中的第一帧图像中的6个侧面脸部特征点的位置,定位出该侧面视角图像序列中除第一帧图像以外的后续帧图像中的6个侧面脸部特征点;所述定位出该侧面视角图像序列中除第一帧图像以外的后续帧图像中的6个侧面脸部特征点的方法包括:①人工手动标识;②使用基于分解概率的粒子滤波跟踪算法实现对6个侧面脸部特征点的自动跟踪;步骤c.4:依次计算步骤c.2中得到的侧面视角图像序列中各帧图像的5个侧面脸部表情特征值P1至P5,具体为:(1)耳孔与第1侧面脸部特征点的水平距离,用P1表示,P1=|x6-x1|;(2)耳孔与第2侧面脸部特征点的水平距离,用P2表示,P2=|x6-x2|;(3)耳孔与第3侧面脸部特征点的水平距离,用P3表示,P3=|x6-x3|;(4)耳孔与第4侧面脸部特征点的水平距离,用P4表示,P4=|x6-x4|;(5)耳孔与第5侧面脸部特征点的水平距离,用P5表示,P5=|x6-x5|;步骤c.5:使用步骤c.4中得到的侧面视角图像序列中每帧图像的5个侧面脸部表情特征值P1至P5构成该图像的特征向量,用符号Fq′′表示,Fq′′=[fq1′′,fq2′′,...,fq5′′]T;其中,1≤q≤nS,fq1′′为所述侧面视角图像序列的第q帧图像中第1个侧面脸部表情特征值P1,fq2′′为所述侧面视角图像序列的第q帧图像中第2个侧面脸部表情特征值P2,……,以此类推,fq5′′为所述侧面视角图像序列的第q帧图像中第5个正面脸部表情特征值P5;步骤c.6:计算第一训练样本集中所有侧面视频得到的侧面视角图像序列中第一帧图像的特征向量的均值,用符号表示,其中,表示第一训练样本集中所有侧面视频得到的侧面视角图像序列中第一帧图像的第j个特征值的均值,1≤j≤5;步骤c.7:使用Fq′′和之间的欧几里得距离表示步骤c.1中所述侧面视角图像序列中第q帧图像的特征;Fq′′和之间的欧几里得距离用符号DP(q)表示,DP(q)可通过公式(3)得到;DF(q)=(Σj=15(fqj-fj)2)1/2]]>   (3)步骤c.8:步骤c.1中所述侧面视角图像序列中nS帧图像的特征DP(q)组成了该侧面视频的侧面视角特征数据;步骤2.2:使用步骤2.1中得到的正面视角特征数据作为步骤一中建立的神经网络分类器的输入,将产生该正面视角特征数据的正面视频所标注的情感类别对应的情感类别输出节点的值设置为1,同时将产生该正面视角特征数据的正面视频所标注的活跃度-评价度空间的粗粒度情感类别对应的线索节点设置为1,其余输出节点均设置为0;然后,训练该神经网络分类器,直至训练结束,确定网络权值;然后去除掉输出层的4个线索节点,得到正面视角神经网络分类器;所述正面视角神经网络分类器为nS-nH-nL完全连接的拓扑结构;步骤2.3:使用步骤2.1中得到的侧面视角特征数据作为步骤一中建立的神经网络分类器的输入,将产生该侧面视角特征数据的侧面视频所标注的情感类别对应的情感类别输出节点的值设置为1,同时将产生该侧面视角特征数据的侧面视频所标注的活跃度-评价度空间的粗粒度情感类别对应的线索节点设置为1,其余输出节点均设置为0;然后,训练该神经网络分类器,直至训练结束,确定网络权值;然后去除掉输出层的4个线索节点,得到侧面视角神经网络分类器;所述侧面视角神经网络分类器为nS-nH-nL完全连接的拓扑结构;步骤2.4:使用步骤2.1中得到的语音特征数据作为步骤一中建立的神经网络分类器的输入,将产生该语音特征数据的正面视频所标注的情感类别对应的情感类别输出节点的值设置为1,同时将产生该语音特征数据的正面视频所标注的活跃度-评价度空间的粗粒度情感类别对应的线索节点设置为1,其余输出节点均设置为0;然后,训练该神经网络分类器,直至训练结束,确定网络权值;然后去除掉输出层的4个线索节点,得到音频神经网络分类器;所述音频神经网络分类器为nY-nH-nL完全连接的拓扑结构;步骤三、建立基于神经网络的多模态融合分类器;此步骤可以与步骤一同步操作:基于神经网络的多模态融合分类器为包含输入层、隐含层和输出层的三层结构的神经网络;其输入层的节点数用符号NI表示,NI=3×nL;其隐含层的节点数用符号NH表示,4≤NH≤10;其输出层包含2种节点,分别为情感类别输出节点和线索节点;输出层的节点数用符号NO表示,NO=NL+NX;其中,NL表示情感类别输出节点的数量,每个情感类别输出节点对应一种情感类别,NL=nL;NX表示线索节点的数量,在训练阶段,NX的取值为4,并且4个线索节点分别对应活跃度-评价度空间上的4种粗粒度情感类别,即活跃度-评价度空间上的四个象限,分别为:积极-正、消极-正、积极-负、消极-负;其中,积极和消极是活跃度-评价度空间中活跃度维度上的两个取值,正和负是活跃度-评价度空间中评价度维度上的两个取值;所述基于神经网络的多模态融合分类器为NI-NH-NO完全连接的拓扑结构;步骤四、训练基于神经网络的多模态融合分类器;在步骤二和步骤三操作的基础上,使用第二训练样本集里的训练样本中人的正面视角特征数据、侧面脸部表情特征数据和语音特征数据训练基于神经网络的多模态融合分类器;第二训练样本集里包含NL种情感的训练数据,并且NL种情感类别与第一训练样本集里的训练数据的情感类别相同;第二训练样本集里每种情感的训练数据由多个训练样本对组成,每种情感的训练样本对的数量不小于20个;每个训练样本对由2条情感视频组成,分别为同步拍摄的正面视频和侧面视频;正面视频是包含人的正面脸部表情和语音的视频数据,侧面视频是包含人的侧面脸部表情的视频数据;每条情感视频都开始于中性表情;第二训练样本集里的每个正面视频和侧面视频均作了2种情感类别标注,一种是离散的情感类别标注,另一种是在活跃度-评价度空间的4种粗粒度情感类别标注,即:积极-正、消极-正、积极-负、消极-负;并且,每个训练样本对中的正面视频和侧面视频在离散的情感类别上的标注结果是一致的,在活跃度-评价度空间的粗粒度情感类别上的标注结果也是一致的;第二训练样本集里的训练数据可以与第一训练样本集里的训练数据一样,也可以不一样;所述训练基于神经网络的多模态融合分类器的具体操作步骤为:步骤4.1:依次对第二训练样本集里的每个训练样本对中的正面视频做预处理,得到正面视角特征数据和语音特征数据;对第二训练样本集里的每个训练样本对中的侧面视频做预处理,得到侧面视角特征数据;所述对第二训练样本集里的一个训练样本对中的正面视频做预处理,得到正面视角特征数据和语音特征数据的操作步骤与步骤二中所述对第一训练样本集里的一个训练样本对中的正面视频做预处理,得到正面视角特征数据和语音特征数据的操作步骤一致;所述对第二训练样本集里的一个训练样本对中的侧面视频做预处理,得到侧面视角特征数据的操作步骤与步骤二中所述对第一训练样本集里的一个训练样本对中的侧面视频做预处理,得到侧面视角特征数据的操作步骤一致;步骤4.2:将步骤4.1中得到的正面视角特征数据作为步骤2.2得到的正面视角神经网络分类器的输入,然后运算该正面视角神经网络分类器,得到该正面视角神经网络分类器输出层各节点的输出值,并将其作为基于神经网络的多模态融合分类器输入层中第1至第nL个输入节点的输入;步骤4.3:将步骤4.1中得到的侧面视角特征数据作为步骤2.3得到的侧面视角神经网络分类器的输入,然后运算该侧面视角神经网络分类器,得到该侧面视角神经网络分类器输出层各节点的输出值,并将其作为基于神经网络的多模态融合分类器输入层中第(nL+1)至第(2×nL)个输入节点的输入;步骤4.4:将步骤4.1中得到的语音特征数据作为步骤2.4得到的音频神经网络分类器的输入,然后运算该音频神经网络分类器,得到该音频神经网络分类器输出层各节点的输出值,并将其作为基于神经网络的多模态融合分类器输入层中第(2×nL+1)至第(3×nL)个输入节点的输入;步骤4.5:在基于神经网络的多模态融合分类器中,将产生步骤4.1中所述正面视角特征数据的正面视频所标注的离散情感类别对应的输出节点的值设置为1,同时将产生步骤4.1中所述正面视角特征数据的正面视频所标注的活跃度-评价度空间的粗粒度情感类别对应的线索节点设置为1,其余输出节点均设置为0;然后,训练该基于神经网络的多模态融合分类器,直至训练结束,确定网络权值,然后去除掉该基于神经网络的多模态融合分类器输出层的4个线索节点,得到多模态融合分类器;所述多模态融合分类器为NI-NH-nL完全连接的拓扑结构;所述识别过程的具体实施步骤包括步骤五至步骤六,具体为:步骤五、对待识别情感视频对中正面视频做预处理,得到正面视角特征数据和语音特征数据;对待识别情感视频对中侧面视频做预处理,得到侧面视角特征数据;所述从待识别情感视频对中得到正面视角特征数据的具体步骤与训练过程的步骤二中所述得到正面视角特征数据的具体步骤一致;所述从待识别情感视频对中得到语音特征数据的具体步骤与训练过程的步骤二中所述得到语音特征数据的具体步骤为一致;所述从待识别情感视频对中得到侧面视角特征数据的具体步骤与训练过程的步骤二中所述得到侧面视角特征数据的具体步骤一致;步骤六、判断待识别情感视频对的情感类别,具体过程为:步骤6.1:将步骤五中得到的正面视角特征数据作为步骤2.2得到的正面视角神经网络分类器的输入,运算该正面视角神经网络分类器,得到该正面视角神经网络分类器输出层各节点的输出值,并将其作为步骤四得到的多模态融合分类器输入层中第1至第nL个输入节点的输入;步骤6.2:将步骤五中得到的侧面视角特征数据作为步骤2.3得到的侧面视角神经网络分类器的输入,运算该侧面视角神经网络分类器,得到该侧面视角神经网络分类器输出层各节点的输出值,并将其作为步骤四得到的多模态融合分类器输入层中第(nL+1)至第(2×nL)个输入节点的输入;步骤6.3:将步骤五中得到的语音特征数据作为步骤2.4得到的音频神经网络分类器的输入,运算该音频神经网络分类器,得到该音频神经网络分类器输出层各节点的输出值,并将其作为步骤四得到的多模态融合分类器输入层中第(2×nL+1)至第(3×nL)个输入节点的输入;步骤6.4:运算多模态融合分类器,得到多模态融合分类器输出层各节点的输出值,然后从该运算多模态融合分类器的输出节点中选取出产生最大输出值的输出节点,将该节点对应的情感类别作为待识别情感视频对的情感类别。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京理工大学,未经北京理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201310304011.4/,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top