[发明专利]视频情绪识别系统、方法有效

申请号：	202310445856.9	申请日：	2023-04-23
公开（公告）号：	CN116453024B	公开（公告）日：	2023-09-22
发明（设计）人：	卫青蓝;黄栩灵;张远	申请（专利权）人：	中国传媒大学
主分类号：	G06V20/40	分类号：	G06V20/40;G06V10/80;G06V10/82;G06N3/0464
代理公司：	北京鸿元知识产权代理有限公司 11327	代理人：	袁文婷;张娓娓
地址：	100024 ***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	视频情绪识别系统方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明提供一种视频情绪识别系统、方法，首先对预输入的原始长视频进行预处理以形成目标视频的短时视频片段；再对目标视频的短时视频片段进行特征提取以分别获取频谱融合特征数据、视觉模态信息数据和文本特征数据，根据频谱融合特征数据、视觉模态信息数据和文本特征数据获取情绪权重，并获取与情绪权重相对应的视频情绪预测值，用户可以在平台前端上传待分析的视频，而这些模态数据将在后端进行计算，获得的情绪分数和最终预测将打印在前端的界面上，实现端到端一致性视频情绪识别，本发明能够有效提高声觉贡献效果，简化视觉提取结构，提高一致性，提升多模态视频情感分析的产业应用价值。

技术领域

本发明涉及人工智能技术领域，更为具体地，涉及一种视频情绪识别系统、方法。

背景技术

多模态情感识别的现代技术主要是通过文本、语音、面部表情、手势、姿势等帮助理解人们在视频种传达出来的情绪。总的来说多模态视频情感识主要是通过声音，视觉和文本三个方面的特征获取和分析从而训练获得情感识别的能力。在现有的基于多模态的视频情感识别工作中，声学模态特征通常由OpenSmile工具包或基于RNN的深度学习网络提取。随着深度学习的发展，现如今的视觉模态特征提取通常是通过深度学习网络实现的，文本模块常借助nlp的手段，比如transformer和Bert实现。以Dai W等人的提出的用于情感识别的多模态端到端稀疏模型FE2E，首先FE2E需要先借助一个视频预处理程序得到各个视频的各模态信息结果作为模型输入，该视频预处理程序不包含再FE2E之中，获取输入后，对于声学模式中的每个频谱块，FE2E使用预训练的11层VGG模型来提取输入特征，然后将其线性变换展平为向量；对于视频图像帧使用MTCNN模型来获取图像帧的人脸位置，然后再将它们输入VGG16中，FE2E使用Transformer模型对声觉和视觉顺序表示进行编码。之后，在“CLS”标记处获取输出向量并应用前馈网络(FFN)来获得分类分数。对于文本模态，直接使用Alert模型来处理单词序列。

但是存在如下问题：一方面，使用VGG16处理的声觉效果与视觉和文本模态相比，贡献相对较低；另一方面，虽然用于视觉模态的VGG16网络能带来更好的性能，但由于结构复杂，它们无法应对长高清视频的计算存储挑战，同时，虽然FE2E在模型设计上通过实现端到端对齐的多模态特征学习取得了突破，该模型需要大量的前期数据处理模块，因此从数据输入到情感预测仍未达到完全一致性，即未能实现完整的视频到情感识别的端到端处理。

因此，亟需一种能够实现端到端处理，提高声觉贡献效果，简化视觉提取结构，提高一致性的视频情绪识别系统、方法。

发明内容

鉴于上述问题，本发明的目的是提供一种视频情绪识别系统、方法，以解决现有技术中一方面，使用VGG16处理的声觉效果与视觉和文本模态相比，贡献相对较低；另一方面，虽然用于视觉模态的VGG16网络能带来更好的性能，但由于结构复杂，它们无法应对长高清视频的计算存储挑战，同时，虽然FE2E在模型设计上通过实现初步端到端对齐的多模态特征学习取得了突破，该模型需要大量的前期数据处理模块，因此从数据输入到情感预测仍未达到完全一致性，即未能实现完整的视频到情感识别的端到端处理的问题。

本发明提供的一种视频情绪识别系统，包括预处理模块和预设的视频情感识别多模态模型；其中，

所述预处理模块用于对预输入的原始长视频进行预处理以形成目标视频的短时视频片段；其中，所述预处理模块包括三模态处理单元和片段划分单元，其中，

所述三模态处理单元用于提取所述原始长视频的文本数据、音频数据和视频图像，并分别对所述音频数据进行数据转换以获取梅尔频谱，对所述视频图像进行数据帧处理以获取单人单帧图像；

所述片段划分单元用于按照预获取的时间表将处于同一时间片段内的文本数据、梅尔频谱和单人单帧图像进行数据对齐以获取目标视频的短时视频片段；

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于中国传媒大学，未经中国传媒大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202310445856.9/2.html，转载请声明来源钻瓜专利网。

同类专利

专利分类

G 物理

G06 计算；推算；计数

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]视频情绪识别系统、方法有效

专利文献下载