[发明专利]一种跨模态视频情感信息解析方法在审

专利信息
申请号: 202211162039.4 申请日: 2022-09-23
公开(公告)号: CN115546685A 公开(公告)日: 2022-12-30
发明(设计)人: 杨燕;谢朱洋;王杰;刘小溶 申请(专利权)人: 西南交通大学
主分类号: G06V20/40 分类号: G06V20/40;G06V40/16;G10L15/02;G10L15/06;G10L15/16;G10L25/63;G06V10/82;G06V10/80;G06N3/08;G06N3/04;G06F16/33
代理公司: 成都点睛专利代理事务所(普通合伙) 51232 代理人: 葛启函
地址: 610031 四*** 国省代码: 四川;51
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 跨模态 视频 情感 信息 解析 方法
【权利要求书】:

1.一种跨模态视频情感信息解析方法,包括以下步骤:

步骤一、对原始视频数据进行处理,提取用于模型输入的特征序列:

(1)使用OpenFace工具包对视频图像进行处理,提取面部特征序列xv,每个视频图像的特征维度为20;

(2)对视频中的文本数据采用预训练的BERT模型得到文本序列xt,每个单词的特征维度为768;

(3)采用COVAREP工具包对视频中的音频信号提取特征序列xa,每个音频信息的特征维度为5;

(4)将提取的上述三种特征序列构建数据集X:其中,m=v,t,a表示模态m具有v,t,a三种取值,v,t,a分别表示视频、文本、音频三种模态,Tm和Dm分别表示来自模态m的序列长度以及特征维度;

(5)将构建好的数据集X按照8∶1∶1进行划分,得到训练集,测试集和验证集;

步骤二、构建跨模态情感预测网络模型:

(1)构建单模态特征提取模块:将构建好的数据集X作为输入,通过双向长短期记忆网络biLSTM分别为所述的三种模态特征进行建模,学习每个模态内部的时序变化,将最终的状态输出用作特征表示,公式如下:

hm=biLSTM(xm,θm)

其中,xm是输入的模态m的序列特征,θm是对应的神经网络参数,hm是模态特征;

(2)构建不确定性估计模块:

将以上三种模态特征hm作为输入,为了实现特征对齐,采用多层感知器MLP进行特征变换,将不同维度的模态特征映射到统一的特征空间:

fm=MLP(hm,wm)

其中,wm是多层感知器的网络参数,fm是映射后的特征向量,多层感知器的隐藏层神经单元数量为128;

将所述模态序列特征的数据看作从不同的高斯分布中采样得到,即其中,表示服从均值为um,方差为σm2的高斯分布。每个模态有着各自的分布,um表示均值,视为样本模态本身,而σm2表示方差,视为模态噪声,为了进行不确定性分布建模,采用两个全连接层FC1和全连接层FC2分别估计模态m的均值um和方差σm

um=FC1(fm,w1)

σm2=FC2(fm,w2)

其中,w1和w2分别是全连接层FC1和FC2的可学习参数;

尽管全连接层能够估计方差σm2,但在网络模型训练过程中,由于过小的方差σm2会导致模型退化为确定性表示;为了解决这个问题,加入了一个正则化项,通过KL散度来约束参数分布近似正态分布:

其中,是由KL散度计算得到的损失,um,i表示均值um的第i个维度,D表示向量维度,设置为128;

为了使估计方差σm2的分布有效地捕获各自模态的信息,通过数据重构的方式进行约束,从而最小化输入与输出之间的误差;由于采样过程不可导,引入了参数化重采样进行反向传播,具体过程如下:

zm=um+∈·σm2,∈∈(0,I)

其中,zm表示重采样后的特征,∈表示正态分布的采样噪声,0和I分别全0和全1的向量,重构损失采用绝对平均误差进行计算;

(3)构建不确定融合模块:

根据不确定性估计得到的分布均值um和方差σm2,执行不确定融合,首先计算图像均值uv和图像方差σv2以及文本均值ut和文本方差σt2两个模态分布的融合,然后将融合的结果再与音频均值ua和音频方差σa2分布融合;具体过程如下:

其中,uvt和σvt2是图像和文本模态融合之后的分布,uvta以及σvta2是三种模态融合得到的最终分布;

(4)构建情感预测模块:

在训练阶段,将得到的跨模态融合结果输入到全连接层FCreg进行情感分类,输出回归的情感分数,采用平均绝对误差作为损失函数;具体过程如下:

Om=FCreg(uvta,wclass)

其中,wclass是全连接层的网络参数,Om是预测的情感分数,gm是样本的真实情感分数,是计算得到的误差损失;

步骤三、在训练集上训练优化网络模型:

整体需要优化的损失函数为:

步骤四、在验证集和测试集上验证和测试网络模型:

在验证和测试阶段,对预测的情感分数进行切分,将分数限定在[-3,3],按照四舍五入对情感分数取整,得到的类别:非常消极、消极、轻微消极、中性、轻微积极、积极、非常积极,具体如下:

Oclass=round(Om)

其中,函数round()为取整操作,Oclass是取整后的结果,表示网络模型最终预测的类别。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西南交通大学,未经西南交通大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202211162039.4/1.html,转载请声明来源钻瓜专利网。

同类专利
专利分类
×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top