[发明专利]一种跨模态视频情感信息解析方法在审

申请号：	202211162039.4	申请日：	2022-09-23
公开（公告）号：	CN115546685A	公开（公告）日：	2022-12-30
发明（设计）人：	杨燕;谢朱洋;王杰;刘小溶	申请（专利权）人：	西南交通大学
主分类号：	G06V20/40	分类号：	G06V20/40;G06V40/16;G10L15/02;G10L15/06;G10L15/16;G10L25/63;G06V10/82;G06V10/80;G06N3/08;G06N3/04;G06F16/33
代理公司：	成都点睛专利代理事务所(普通合伙) 51232	代理人：	葛启函
地址：	610031 四***	国省代码：	四川;51
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种跨模态视频情感信息解析方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种跨模态视频情感信息解析方法，包括以下步骤：

步骤一、对原始视频数据进行处理，提取用于模型输入的特征序列：

(1)使用OpenFace工具包对视频图像进行处理，提取面部特征序列x_v，每个视频图像的特征维度为20；

(2)对视频中的文本数据采用预训练的BERT模型得到文本序列x_t，每个单词的特征维度为768；

(3)采用COVAREP工具包对视频中的音频信号提取特征序列x_a，每个音频信息的特征维度为5；

(4)将提取的上述三种特征序列构建数据集X：其中，m＝v，t，a表示模态m具有v，t，a三种取值，v，t，a分别表示视频、文本、音频三种模态，T_m和D_m分别表示来自模态m的序列长度以及特征维度；

(5)将构建好的数据集X按照8∶1∶1进行划分，得到训练集，测试集和验证集；

步骤二、构建跨模态情感预测网络模型：

(1)构建单模态特征提取模块：将构建好的数据集X作为输入，通过双向长短期记忆网络biLSTM分别为所述的三种模态特征进行建模，学习每个模态内部的时序变化，将最终的状态输出用作特征表示，公式如下：

h_m＝biLSTM(x_m，θ_m)

其中，x_m是输入的模态m的序列特征，θ_m是对应的神经网络参数，h_m是模态特征；

(2)构建不确定性估计模块：

将以上三种模态特征h_m作为输入，为了实现特征对齐，采用多层感知器MLP进行特征变换，将不同维度的模态特征映射到统一的特征空间：

f_m＝MLP(h_m，w_m)

其中，w_m是多层感知器的网络参数，f_m是映射后的特征向量，多层感知器的隐藏层神经单元数量为128；

将所述模态序列特征的数据看作从不同的高斯分布中采样得到，即其中，表示服从均值为u_m，方差为σ_m²的高斯分布。每个模态有着各自的分布，u_m表示均值，视为样本模态本身，而σ_m²表示方差，视为模态噪声，为了进行不确定性分布建模，采用两个全连接层FC₁和全连接层FC₂分别估计模态m的均值u_m和方差σ_m：

u_m＝FC₁(f_m，w₁)

σ_m²＝FC₂(f_m，w₂)

其中，w₁和w₂分别是全连接层FC₁和FC₂的可学习参数；

尽管全连接层能够估计方差σ_m²，但在网络模型训练过程中，由于过小的方差σ_m²会导致模型退化为确定性表示；为了解决这个问题，加入了一个正则化项，通过KL散度来约束参数分布近似正态分布：

其中，是由KL散度计算得到的损失，u_m，i表示均值u_m的第i个维度，D表示向量维度，设置为128；

为了使估计方差σ_m²的分布有效地捕获各自模态的信息，通过数据重构的方式进行约束，从而最小化输入与输出之间的误差；由于采样过程不可导，引入了参数化重采样进行反向传播，具体过程如下：

z_m＝u_m+∈·σ_m²，∈∈(0，I)

其中，z_m表示重采样后的特征，∈表示正态分布的采样噪声，0和I分别全0和全1的向量，重构损失采用绝对平均误差进行计算；

(3)构建不确定融合模块：

根据不确定性估计得到的分布均值u_m和方差σ_m²，执行不确定融合，首先计算图像均值u_v和图像方差σ_v²以及文本均值u_t和文本方差σ_t²两个模态分布的融合，然后将融合的结果再与音频均值u_a和音频方差σ_a²分布融合；具体过程如下：