[发明专利]一种跨模态视频情感信息解析方法在审

申请号：	202211162039.4	申请日：	2022-09-23
公开（公告）号：	CN115546685A	公开（公告）日：	2022-12-30
发明（设计）人：	杨燕;谢朱洋;王杰;刘小溶	申请（专利权）人：	西南交通大学
主分类号：	G06V20/40	分类号：	G06V20/40;G06V40/16;G10L15/02;G10L15/06;G10L15/16;G10L25/63;G06V10/82;G06V10/80;G06N3/08;G06N3/04;G06F16/33
代理公司：	成都点睛专利代理事务所(普通合伙) 51232	代理人：	葛启函
地址：	610031 四***	国省代码：	四川;51
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种跨模态视频情感信息解析方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开了一种跨模态视频情感信息解析方法，属于多媒体视频理解技术领域。其步骤包括：(1)单模态特征提取模块，即通过时序建模的方式捕获每个模态特有的语义信息；(2)不确定性估计模块，即对不同模态进行不确定建模，得到各模态的不确定分布表示；(3)不确定融合模块，即根据不确定概率融合的方式整合多模态信息，降低跨模态融合的不确定性；(4)情感分类模块，通过全连接网络层，输出最终的情感分类结果。

技术领域

本发明属于多媒体视频理解技术领域，具体涉及一种跨模态视频情感信息解析方法。

背景技术

随着现代多媒体技术的发展，人们在社交平台上进行个人活动变得更为频繁，例如通过图片配以文字，亦或是短视频的形式表达自身的观点和情绪。这类的多模态数据给情感分析带来了机遇和挑战：一方面，多模态数据带来了更多的信息，能够作为单模态信息的补充，从而帮助我们更准确地情感分析，例如，发言人在文本上表达讽刺地观点，只从文本信息出发，可能会认为这是积极地态度，但是如果结合面部表情和说话的音调，从而能够准确判断出这是消极的态度。另一方面，这些模态数据通常是非对齐的、异构的，这对整合不同的模态信息带来了挑战。

当前跨模态情感融合的方法主要集中在模态内交互和模态间交互：(1)模态内交互，表现在单个序列内部的时序动态，例如发言人在一段话中语言出现反复、过多的停顿，从而造成语义上的前后矛盾。针对模态内交互，采用基于循环神经网络进行时序上的动态建模以获取模态内的交互。(2)模态间交互，表现在不同模态之间的语义关联，这些时序信息在相同或者不同的时间刻进行信息的交互。针对模态间交互，主要有两种方式，一种是将多模态数据划分为相同时间长度的序列，在每个时间刻上执行多模态信息的融合。另一种是为每个模态序列分别提取特征，最终在特征层次上执行不同模态信息的融合。对现有的专利和相关技术进行检索发现，现有的与跨模态视频情感分析有关的方法有：

(1)陈巧红，孙佳锦，漏杨波.基于多任务学习与层叠跨模态融合的多模态情感分析方法[P]. 浙江省：CN114694076A，2022-07-01.提出了一种基于多任务学习与层叠跨模态融合的多模态情感分析方法。该方法首先用单模态特征提取器学习隐藏层特征，然后将学习到的隐藏层特征送入到层叠的跨模态融合模块进一步提取高层特征，最后将高层的特征与单模态特征拼接用于情感分类。

(2)李恒宇，薛晖.一种基于深度核映射网络的非对齐时序多模态情感分析方法[P].江苏省： CN114626456A，2022-06-14.一种基于深度核映射网络的非对齐时序多模态情感分析方法。该方法首先采用深度核映射网络提取多模态数据的时序特征，然后使用DK-Transformer模型进行多模态的细粒度语义对齐，并通过双向门控循环单元融合多模态特征，最后将多模态特征用于情感分类。

(3)岑敬伦，李志鹏，青春美，罗万相.一种音视频多模态情感分类方法及系统[P].广东省： CN113408385B，2022-06-14.提出了一种音视频多模态情感分类方法及系统。该系统由3个网络分支构成：由Vit网络、路径积分网络以及LSTM网络构成的图像特征提取网络；由 Con-LSTM网络和Sig模块构成的音频特征提取网络；由BERT构成的文本特征提取网络。该系统分别为3种模态提取特征并通过张量融合网络进行特征融合，最后通过全连接层得到情感分类。

然而，上述方法存在两个问题：(1)在自然状态下，数据的采集过程中可能存在噪声。一种是数据本身具有噪声，例如发言人处于较为嘈杂的开放环境，音频中会混有周围环境的声音，从而对情感分析形成了阻碍；另一种是人为的噪声，例如在对视频或者图片添加文字的过程中，可能存在拼写错误。此外，在数据的传输过程中也存在不同程度的信息丢失。(2)不同模态包含的信息量有着差别，不能将这些模态信息视为同等重要。例如，在情感分析任务中，文本通常是情感的主要载体，而图像和音频则是作为辅助模态。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于西南交通大学，未经西南交通大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202211162039.4/2.html，转载请声明来源钻瓜专利网。

上一篇：一种飞机任务服务保障效能评价方法、装置、设备及介质
下一篇：一种碳酸锂生产提纯用洗涤分离装置

同类专利

专利分类

G 物理

G06 计算；推算；计数

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种跨模态视频情感信息解析方法在审

专利文献下载