[发明专利]多模态情感识别方法有效
申请号: | 202110200140.3 | 申请日: | 2021-02-23 |
公开(公告)号: | CN112559835B | 公开(公告)日: | 2021-09-14 |
发明(设计)人: | 陶建华;孙立才;刘斌;柳雪飞 | 申请(专利权)人: | 中国科学院自动化研究所 |
主分类号: | G06F16/906 | 分类号: | G06F16/906;G06K9/62;G06N3/04;G06N3/08 |
代理公司: | 北京华夏泰和知识产权代理有限公司 11662 | 代理人: | 孙剑锋;刘蔓莉 |
地址: | 100190 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 多模态 情感 识别 方法 | ||
1.多模态情感识别方法,其特征在于,包括:
S1:输入待测样本的音频文件、视频文件及对应的文本文件,分别对所述音频文件、视频文件和文本文件进行特征提取,得到帧级别的音频特征、帧级别的视频特征和词级别的文本特征;
S2:将所述帧级别的音频特征、帧级别的视频特征和词级别的文本特征分别输入到音频特征编码器、视频特征编码器和文本特征编码器进行局部上下文建模,得到音频编码特征、视频编码特征和文本编码特征;
将所述帧级别的音频特征输入到音频特征编码器进行局部上下文建模,得到音频编码特征的具体方法为:
对所述帧级别的音频特征依次经过两层的一维卷积网络、一维池化网络和一层的双向长短时记忆网络进行局部音频上下文建模,得到音频编码特征;
将所述帧级别的视频特征输入到视频特征编码器进行局部上下文建模,得到视频编码特征的具体方法为:
对所述帧级别的视频特征依次经过两层的一维卷积网络、一维池化网络和一层的双向长短时记忆网络进行局部视频上下文建模,得到视频编码特征;
一维卷积网络和一维池化网络的卷积核尺寸和步长均为3;
将所述词级别的文本特征输入到文本特征编码器进行局部上下文建模,得到文本编码特征的具体方法为:
对所述词级别的文本特征经过一层的双向长短时记忆网络进行局部文本上下文建模,得到文本编码特征;
S3:一方面将所述音频编码特征、视频编码特征和文本编码特征分别经过各自的自注意力模块对模态内的交互关系进行建模,得到,模态内特征,所述模态内特征包括:模态内音频特征、模态内视频特征和模态内文本特征;
将所述音频编码特征经过音频自注意力模块,对模态内的交互关系进行建模,得到模态内音频特征的具体方法为:
将音频编码特征和正余弦波编码的音频固定位置特征相加,得到,音频编码位置特征;将所述音频编码位置特征依次输入至音频自注意力层和音频前馈层中,对模态内交互关系进行建模得到模态内音频特征;
自注意力模块中的层数,其值可根据实际情况进行设置,常用范围为1-4;
S4:另一方面将所述音频编码特征、视频编码特征和文本编码特征进行两两排序组合输入至跨模态注意力模块对两两模态间的交互关系进行建模,得到,模态间特征,所述模态间特征包括:音频-视频交互特征、音频-文本交互特征和视频-文本交互特征;
S4-1:将音频编码特征和视频编码特征输入到音频-视频跨模态注意力模块中对音频编码特征和视频编码特征的模态间交互关系进行建模得到;
将音频编码特征和视频编码特征输入到音频-视频跨模态注意力模块中对音频编码特征和视频编码特征的模态间交互关系进行建模得到的具体步骤是:
S4-1-1:将音频编码特征输入和蕴含位置信息的特征相加得到,将视频编码特征输入和蕴含位置信息的特征相加得到;
其中,和用自然语言处理中Transformer模型使用的经过正余弦波编码的固定位置特征;
S4-1-2:将和输入至层的跨模态注意力层和前馈层中对音频编码特征和视频编码特征的模态间交互关系进行建模得到,;
其中,从,到,的计算过程如下:
其中,;
其中,表示层归一化,表示跨模态注意力层,表示前馈层;
S4-1-3:将,二者在特征维上进行拼接即可得到,即;
S4-2:将音频编码特征和文本编码特征输入到音频-文本跨模态注意力模块中对音频编码特征和文本编码特征间的模态间交互关系进行建模得到;
其中,将音频编码特征和文本编码特征输入到音频-文本跨模态注意力模块中对音频编码特征和文本编码特征间的模态间交互关系进行建模得到的具体步骤是:
S4-2-1:将音频编码特征输入和蕴含位置信息的特征相加得到,将文本编码特征输入和蕴含位置信息的特征相加得到;
其中,和用自然语言处理中Transformer模型使用的经过正余弦波编码的固定位置特征;
S4-2-2:将和输入至层的跨模态注意力层和前馈层中对音频编码特征和文本编码特征间的模态间交互关系进行建模得到, ;
其中,从,到,,的计算过程如下:
其中,;
其中,表示层归一化,表示跨模态注意力层,表示前馈层;
S4-2-3:将,二者在特征维上进行拼接即可得到,即;
S4-3:将视频编码特征和文本编码特征输入到视频-文本跨模态注意力模块中对视频编码特征和文本编码特征间的模态间交互关系进行建模得到;
其中,将视频编码特征和文本编码特征输入到视频-文本跨模态注意力模块中对视频编码特征和文本编码特征间的模态间交互关系进行建模得到的具体步骤是:
S4-3-1:将视频编码特征输入和蕴含位置信息的特征相加得到,将文本编码特征输入和蕴含位置信息的特征相加得到;
其中,和用自然语言处理中Transformer模型使用的经过正余弦波编码的固定位置特征;
S4-3-2:将和输入至层的跨模态注意力层和前馈层中对视频编码特征和文本编码特征间的模态间交互关系进行建模得到,;
其中说,从到的计算过程如下:
其中,;
其中,表示层归一化,表示跨模态注意力层,表示前馈层;
S4-3-3:将, 二者在特征维上进行拼接即可得到,即;
S5:对所述模态内特征和所述模态间特征分别进行时序池化得到全局模态内特征,全局模态间特征;所述全局模态内特征包括:全局模态内音频特征、全局模态内视频特征和全局模态内文本特征;所述全局模态间特征包括:全局音频-视频交互特征、全局音频-文本交互特征和全局视频-文本交互特征;
S6:将所述全局模态内特征和所述全局模态间特征进行加权融合得到整个待测样本的模态内特征表示和模态间特征表示,然后将所述模态内特征表示和模态间特征表示进行拼接,然后经过全连接网络得到最终的情感分类结果;
将所述全局模态内特征进行加权融合的模态内加权融合系数的具体计算公式如下:
全局模态内音频特征表示为、全局模态内视频特征表示为和全局模态内文本特征表示为;
,
其中,
为模态内加权融合系数;
和为常数;
的具体形式为:tanh或者relu激活函数
将所述全局模态间特征进行加权融合的模态间加权融合系数的具体计算公式如下:
全局音频-视频交互特征、全局音频-文本交互特征和全局视频-文本交互特征;
,
其中,
为模态间加权融合系数;
和为常数;
的具体形式为:tanh或者relu激活函数。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院自动化研究所,未经中国科学院自动化研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110200140.3/1.html,转载请声明来源钻瓜专利网。