[发明专利]基于注意力融合的在线短视频多模态情感识别方法有效
申请号: | 202010043993.6 | 申请日: | 2020-01-15 |
公开(公告)号: | CN111275085B | 公开(公告)日: | 2022-09-13 |
发明(设计)人: | 唐宏;赖雪梅;陈虹羽;李珊珊 | 申请(专利权)人: | 重庆邮电大学 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06V20/40;G06V10/764;G06V10/80;G06V10/82;G06N3/04;G10L15/26;G10L25/63 |
代理公司: | 重庆辉腾律师事务所 50215 | 代理人: | 王海军 |
地址: | 400065 重*** | 国省代码: | 重庆;50 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 注意力 融合 在线 视频 多模态 情感 识别 方法 | ||
本发明涉及自然语言处理、深度学习、多模态情感分析领域,特别涉及一种基于注意力融合的在线短视频多模态情感识别方法,该方法包括:获取短视频中的各个单模特征;采用双向GRU分别对上述特征进行预处理,得到模态内部信息;结合模态内部信息和模态之间的交互作用,得到各个高级模态特征;根据注意力机制确定各模态的贡献程度,得到总特征向量,并输入到softmax函数中,得到基于注意力融合的双向GRU多模态情感识别模型;训练该模型,将待识别的短视频输入到训练好的模型中,得到情感识别结果;本发明很好的融合了各单模态特征,有效挖掘视频中所表达的情感信息,从而提升了多模态情感识别的准确率及效率。
技术领域
本发明涉及自然语言处理、深度学习、多模态情感分析领域,特别涉及一种基于注意力融合的在线短视频多模态情感识别方法。
背景技术
随着互联网的广泛普及,手机网民规模不断扩大,越来越多的人通过互联网进行沟通交流,因此互联网上产生了大量的用户对于诸如人物、事件、产品等有价值的评论信息,这些评论信息表达了人们的情感色彩和情感倾向。但是随着通信技术的进步和新兴社交媒体(如抖音、秒拍、快手等)的迅速崛起,在线短视频受到了人们越来越多的关注,人们习惯通过拍短视频来表达自己的情感或观点。随着短视频数量的增加及人们言论自由的权利,有些人通过短视频发表积极的言论,而有些人却利用短视频散播消极的言论,当消极言论过多时,就意味着社会矛盾有爆发的可能,相关部门需提前采取行动解决可能存在的矛盾。但是网上发布的短视频数量众多,仅仅依靠人工辨别一段短视频是积极或消极的显然应付不过来,由于情感可以从人的面部表情、声音、韵律和身体姿态中提取出来,所以在这种情况下,有必要建立一个对在线短视频进行多模态情感识别的系统。随着深度学习算法的快速发展,利用人工智能技术和自然语言处理领域的相关技术来进行多模态情感识别可以很大程度改善和提高舆情监控的效率。
对于多模态情感识别,其挑战之一在于如何考虑短视频中所有话语之间的相互依赖关系。视频中的话语都是在不同时间以特定顺序说出来的,所以视频可以看作是一系列话语,视频的序列话语很大程度上与上下文相关,从而影响彼此的情感分布,以前的方法大都忽略了每个话语的上下文信息。多模态情感识别的第二个挑战在于如何更好地对模态内部信息和模态之间的交互作用进行建模,即如何更好地将各模态信息进行有效融合。目前多模态融合策略主要有特征层融合和决策层融合两种。特征层融合,也称早融合,即在信息输入时直接将多种模态信息进行拼接操作。虽然此方法简单易操作,但是却不能将从不同模态获得的冲突或冗余信息过滤掉,并且容易忽略模态间的动态关系。决策层融合,也称晚融合,即对每种模态信息单独做训练,考虑模态的内在信息,然后进行决策投票。虽然此种方法充分考虑了各模态特征的差异性,但是却难以学习到模态之间的相互联系。
发明内容
为解决以上现有技术问题,本发明提出了一种基于注意力融合的在线短视频多模态情感识别方法,该方法步骤包括:
S1:获取短视频中的各单模特征,即文本特征、语音特征以及图像特征;
S2:采用双向GRU网络分别对各单模特征进行预处理,得到各个单模初级特征,即初级文本特征、初级语音特征和初级图像特征;
S3:结合模态内部的各个单模初级特征和各模态之间的交互作用,得到高级文本特征、高级语音特征和高级图像特征;
S4:根据注意力机制确定各模态的贡献程度,得到总特征向量,将总特征向量输入到softmax函数中,得到基于注意力融合的双向GRU多模态情感识别模型;
S5:对基于注意力融合的双向GRU多模态情感识别模型进行优化训练,将待识别的短视频输入到训练好的模型中,得到该短视频的情感识别结果;
S6:根据得到的情感识别结果,控制该短视频是否进行上传。
优选的,获取短视频中的各单模特征的步骤包括:
S11:使用CNN提取视频中每个话语的文本特征,得到视频i中话语j的文本特征表示
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于重庆邮电大学,未经重庆邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010043993.6/2.html,转载请声明来源钻瓜专利网。