[发明专利]一种跨模态视频情感信息解析方法在审
申请号: | 202211162039.4 | 申请日: | 2022-09-23 |
公开(公告)号: | CN115546685A | 公开(公告)日: | 2022-12-30 |
发明(设计)人: | 杨燕;谢朱洋;王杰;刘小溶 | 申请(专利权)人: | 西南交通大学 |
主分类号: | G06V20/40 | 分类号: | G06V20/40;G06V40/16;G10L15/02;G10L15/06;G10L15/16;G10L25/63;G06V10/82;G06V10/80;G06N3/08;G06N3/04;G06F16/33 |
代理公司: | 成都点睛专利代理事务所(普通合伙) 51232 | 代理人: | 葛启函 |
地址: | 610031 四*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 跨模态 视频 情感 信息 解析 方法 | ||
1.一种跨模态视频情感信息解析方法,包括以下步骤:
步骤一、对原始视频数据进行处理,提取用于模型输入的特征序列:
(1)使用OpenFace工具包对视频图像进行处理,提取面部特征序列xv,每个视频图像的特征维度为20;
(2)对视频中的文本数据采用预训练的BERT模型得到文本序列xt,每个单词的特征维度为768;
(3)采用COVAREP工具包对视频中的音频信号提取特征序列xa,每个音频信息的特征维度为5;
(4)将提取的上述三种特征序列构建数据集X:其中,m=v,t,a表示模态m具有v,t,a三种取值,v,t,a分别表示视频、文本、音频三种模态,Tm和Dm分别表示来自模态m的序列长度以及特征维度;
(5)将构建好的数据集X按照8∶1∶1进行划分,得到训练集,测试集和验证集;
步骤二、构建跨模态情感预测网络模型:
(1)构建单模态特征提取模块:将构建好的数据集X作为输入,通过双向长短期记忆网络biLSTM分别为所述的三种模态特征进行建模,学习每个模态内部的时序变化,将最终的状态输出用作特征表示,公式如下:
hm=biLSTM(xm,θm)
其中,xm是输入的模态m的序列特征,θm是对应的神经网络参数,hm是模态特征;
(2)构建不确定性估计模块:
将以上三种模态特征hm作为输入,为了实现特征对齐,采用多层感知器MLP进行特征变换,将不同维度的模态特征映射到统一的特征空间:
fm=MLP(hm,wm)
其中,wm是多层感知器的网络参数,fm是映射后的特征向量,多层感知器的隐藏层神经单元数量为128;
将所述模态序列特征的数据看作从不同的高斯分布中采样得到,即其中,表示服从均值为um,方差为σm2的高斯分布。每个模态有着各自的分布,um表示均值,视为样本模态本身,而σm2表示方差,视为模态噪声,为了进行不确定性分布建模,采用两个全连接层FC1和全连接层FC2分别估计模态m的均值um和方差σm:
um=FC1(fm,w1)
σm2=FC2(fm,w2)
其中,w1和w2分别是全连接层FC1和FC2的可学习参数;
尽管全连接层能够估计方差σm2,但在网络模型训练过程中,由于过小的方差σm2会导致模型退化为确定性表示;为了解决这个问题,加入了一个正则化项,通过KL散度来约束参数分布近似正态分布:
其中,是由KL散度计算得到的损失,um,i表示均值um的第i个维度,D表示向量维度,设置为128;
为了使估计方差σm2的分布有效地捕获各自模态的信息,通过数据重构的方式进行约束,从而最小化输入与输出之间的误差;由于采样过程不可导,引入了参数化重采样进行反向传播,具体过程如下:
zm=um+∈·σm2,∈∈(0,I)
其中,zm表示重采样后的特征,∈表示正态分布的采样噪声,0和I分别全0和全1的向量,重构损失采用绝对平均误差进行计算;
(3)构建不确定融合模块:
根据不确定性估计得到的分布均值um和方差σm2,执行不确定融合,首先计算图像均值uv和图像方差σv2以及文本均值ut和文本方差σt2两个模态分布的融合,然后将融合的结果再与音频均值ua和音频方差σa2分布融合;具体过程如下:
其中,uvt和σvt2是图像和文本模态融合之后的分布,uvta以及σvta2是三种模态融合得到的最终分布;
(4)构建情感预测模块:
在训练阶段,将得到的跨模态融合结果输入到全连接层FCreg进行情感分类,输出回归的情感分数,采用平均绝对误差作为损失函数;具体过程如下:
Om=FCreg(uvta,wclass)
其中,wclass是全连接层的网络参数,Om是预测的情感分数,gm是样本的真实情感分数,是计算得到的误差损失;
步骤三、在训练集上训练优化网络模型:
整体需要优化的损失函数为:
步骤四、在验证集和测试集上验证和测试网络模型:
在验证和测试阶段,对预测的情感分数进行切分,将分数限定在[-3,3],按照四舍五入对情感分数取整,得到的类别:非常消极、消极、轻微消极、中性、轻微积极、积极、非常积极,具体如下:
Oclass=round(Om)
其中,函数round()为取整操作,Oclass是取整后的结果,表示网络模型最终预测的类别。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西南交通大学,未经西南交通大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211162039.4/1.html,转载请声明来源钻瓜专利网。
- 信息记录介质、信息记录方法、信息记录设备、信息再现方法和信息再现设备
- 信息记录装置、信息记录方法、信息记录介质、信息复制装置和信息复制方法
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录设备、信息重放设备、信息记录方法、信息重放方法、以及信息记录介质
- 信息存储介质、信息记录方法、信息重放方法、信息记录设备、以及信息重放设备
- 信息存储介质、信息记录方法、信息回放方法、信息记录设备和信息回放设备
- 信息记录介质、信息记录方法、信息记录装置、信息再现方法和信息再现装置
- 信息终端,信息终端的信息呈现方法和信息呈现程序
- 信息创建、信息发送方法及信息创建、信息发送装置