[发明专利]一种融合多特征和注意力机制的多模态情感分析方法在审
申请号: | 202211628659.2 | 申请日: | 2022-12-20 |
公开(公告)号: | CN116028846A | 公开(公告)日: | 2023-04-28 |
发明(设计)人: | 吕学强;张乐;滕尚志;韩晶 | 申请(专利权)人: | 北京信息科技大学 |
主分类号: | G06F18/24 | 分类号: | G06F18/24;G06F18/25;G10L15/16;G06V10/82;G06V20/40;G06N3/0455;G06N3/0442 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 100192 北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 融合 特征 注意力 机制 多模态 情感 分析 方法 | ||
1.本发明的一种融合多特征和注意力机制的多模态情感分析方法,其特征在于,包括以下步骤:
通过多模态特征提取模块获得文本、视频、语音各模态丰富的低层特征;
通过自注意力机制实现对三种模态内部信息的提取,获得对应的高层特征;
通过跨模态注意力机制分别实现音频-文本和视频-文本的交互,在空间上实现模态间信息的交互;
将学习到的模态内部信息和模态间交互信息进行拼接,得到更加丰富的音频和视频融合特征;
最后拼接三种模态的最终表示并传入一个软注意力模块,为三种模态分配不同的权重,通过全连接层实现多模态情感分类结果;
根据训练数据训练模型并更新参数,然后在测试集上并进行测试。
2.如权利要求1所述的一种融合多特征和注意力机制的多模态情感分析方法,其特征在于:对SIMS公开数据集进行多模态特征提取,对于音频模态,通过LibROSA语音工具包提取声学特征作为低层音频特征;对于文本模态,通过预训练的中文BRET-base提取文本字级向量表示,融合义原外部知识的SAT提取词级向量表示作为低层文本特征;对于视频模态,通过OpenFace2.0提取面部特征,ViTPose提取肢体动作,Face++提取性别和年龄等特征作为低层视频特征。
3.如权利要求2所述的一种融合多特征和注意力机制的多模态情感分析方法,其特征在于:利用Transformer中的自注意力机制在捕获上下文关系中的优势对单模态低层特征进行建模,获得更加丰富的高层特征信息。
4.如权利要求3所述的一种融合多特征和注意力机制的多模态情感分析方法,其特征在于:通过改进Transformer使其接收两个模态作为输入,经过跨模态注意力机制实现模态间信息的交互,为了降低模型的复杂度,在跨模态交互部分,选择利用文本模态去辅助音频和视频模态进行建模,为了降低信息冗余和模型计算量,防止模型过拟合,在经过跨模态注意力机制后,采用组合池化获得更加丰富的特征。
5.如权利要求4所述的一种融合多特征和注意力机制的多模态情感分析方法,其特征在于:将模态内部的高层特征和跨模态融合特征拼接在一起,实现模态内部和模态间信息的结合。
6.如权利要求5所述的一种融合多特征和注意力机制的多模态情感分析方法,其特征在于:引入软注意力模块,为三种模态分配不同的权重,实现多模态情感分类结果。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京信息科技大学,未经北京信息科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211628659.2/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种缓解木糖醇结块的系统及其方法
- 下一篇:一种防砂铸铸钢件粘连的浇铸装置