[发明专利]一种面向在线视频学习的基于眼动和视频特征的情感识别方法在审

申请号：	202111065448.8	申请日：	2021-09-13
公开（公告）号：	CN113850164A	公开（公告）日：	2021-12-28
发明（设计）人：	陶小梅;鲍金笛;周颖慧;李泽	申请（专利权）人：	桂林理工大学
主分类号：	G06K9/00	分类号：	G06K9/00;G06K9/62;G06N3/04;G06N3/08
代理公司：	暂无信息	代理人：	暂无信息
地址：	541004 广西壮***	国省代码：	广西;45
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种面向在线视频学习基于视频特征情感识别方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种面向在线视频学习的基于眼动和视频特征的情感识别方法，包括以下步骤：

S1、自建眼动和视频特征的数据库，以学习视频作为刺激材料，获取数据；并对数据对齐、标注、预处理、数据集设置、数据类型转换和数据集划分等操作；

S2、设计一个基于卷积神经网路的特征提取模块FE-CNN，提取原始特征的深层特征；

S3、设计一个基于卷积神经网路的情感分类模块EC-CNN，对感兴趣、无聊、困惑和高兴四种情感进行识别；

S4、采用特征层融合、决策层融合和模型层融合对眼动特征、音频特征和视频图像特征进行融合，找出最佳融合策略

S5、对训练过程可视化并通过评价指标对所提出的网络结构评价，以检测所提出的网络性能的优劣。

2.根据权利要求1所述的一种面向在线视频学习的基于眼动和视频特征的情感识别方法，其特征在于，所述S1具体包括一下步骤：

自建实验数据集，使用学习视频作为刺激材料，诱发被试者在学习过程中的情感状态，采集过程中的眼动信息：

根据采集到的眼动信息帧数采集同帧数的视频内容中的音频信号和视频图像；

采用离散型的情感标注模型对数据进行标注，将情感标注词分为感兴趣、高兴、无聊和困惑四种情感状态；

对采集的眼动特征、音频特征和视频图像特征进行预处理，预处理包括：高质量数据筛选，去除异常值和缺省值以及数据对齐；

把数据集的时间窗口大小设置为3秒；

图像数据划分为训练集、验证集和测试集，划分比例为70％，10％，20％；

提取眼动特征和MFCC的统计特征，对视频图像求相邻图像帧变化的像素点个数C以及像素变化率Z公式如下：

其中A_i＝X_i-X_i-1，是相邻两灰度图像的矩阵差，n为灰度图像个数，式7中为A_i矩阵中非零元素的个数，C可以记录一个窗口中所有相邻图像做差后的非零像素点个数，来表示图像切换的快慢；

其中A_t＝X_t-X_t-1，是相邻两灰度图像的矩阵差，n为灰度图像像素点个数；A_t(i，j)为矩阵A_t中第i行第j列的元素，对矩阵A_t中所有元素值求和再求其均值，得到两图像间的像素变化率Z，对窗口中两两相邻的图像求Z，得到一个像素变化率的序列Z＝[Z₁，Z₂，……，Z_u-1]，其中u为窗口中图像帧的个数；

结合光流法和眼动坐标求眼动坐标差特征，该特征分为眼跳状态下的FCDE_s和注视状态下的FCDE_f，公式如下：

公式中，(x，y)为眼动原坐标，(x_pi，y_pi)和(x_vi，y_vi)分别为第i帧中眼动坐标和第i帧中的角点坐标；若FCDE_s和FCDE_f越小则说明注视点轨迹与视频中角点的轨迹越相同，那么被试的注意力就越集中；对提取好的特征进行PCA降维；

进一步地，步骤S2设计了一个特征提取网络FE-CNN来提取深层特征，该网络包含四层3*3的卷积；

卷积计算过程为：

其中，I代表层数，Mj代表第j个特征图，b代表偏置；

所有的卷积层后面都跟一个Relu激活函数，该函数缓解梯度消失，也能在一定程度上解决梯度爆炸，从而加快训练速度；

ReLU激活函数表达式如下所示：

进一步地，步骤S3设计了一个情感分类网络EC-CNN：该网络包含四层3*3的卷积；

每层卷积后跟一层BatchNorm1d，在BatchNorm1d后再跟一个Relu激活函数；

进一步地，步骤S4采用特征层融合、决策层融合和模型层融合对眼动信号、音频信号和视频图像进行融合，找出最佳融合策略；

最后，步骤S5将训练过程可视化，采用精度(Accuracy)、精准率(Precision)、召回率(Recall)和F1分数(F1-score)以及混淆矩阵和ROC曲线衡量所设计的网络结构性能效果；

这个需要定义几个基本概念，N_TP：分类器将正样本判断为正样本的个数，N_FP：分类器将负样本判断为正样本的个数，N_TN：分类器将负样本判断为负样本的个数，N_FN：分类器将正样本判断为负样本的个数；