[发明专利]海量音视频情感识别系统有效
申请号: | 202110253708.8 | 申请日: | 2021-03-09 |
公开(公告)号: | CN112633263B | 公开(公告)日: | 2021-06-08 |
发明(设计)人: | 陶建华;连政;刘斌;孙立才 | 申请(专利权)人: | 中国科学院自动化研究所 |
主分类号: | G06K9/00 | 分类号: | G06K9/00;G06K9/62;G10L15/02;G10L15/06;G10L15/16;G10L25/63;G06N3/04 |
代理公司: | 北京华夏泰和知识产权代理有限公司 11662 | 代理人: | 孙剑锋;刘蔓莉 |
地址: | 100190 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 海量 视频 情感 识别 系统 | ||
1.海量音视频情感识别系统,其特征在于,包括:
声学特征抽取模块、语音情感识别模型预训练模块、语音情感识别模型微调模块、图像特征抽取模块、图像情感识别模型预训练模块、图像情感识别模型微调模块、多模态融合模块和情绪状态预测模块;
所述声学特征抽取模块与所述语音情感识别模型预训练模块连接,所述语音情感识别模型预训练模块与所述语音情感识别模型微调模块连接,所述图像特征抽取模块与所述图像情感识别模型预训练模块连接,所述图像情感识别模型预训练模块与所述图像情感识别模型微调模块连接,所述语音情感识别模型微调模块和所述图像情感识别模型微调模块分别与所述多模态融合模块连接,所述多模态融合模块与所述情绪状态预测模块连接;
所述声学特征抽取模块:从输入的音频数据中抽取帧级别的声学特征;
所述语音情感识别模型预训练模块:以无标注的所述帧级别的声学特征和被掩蔽的无标注的所述帧级别的声学特征为输入,预测完整的帧级别的声学特征;
所述语音情感识别模型微调模块:利用少量标注的音频数据,对所述声学特征抽取模块和所述语音情感识别模型预训练模块中的参数进行微调和优化并输出句子级别声学特征;
所述图像特征抽取模块:从输入的视频数据中抽取帧级别的图像特征;
所述图像情感识别模型预训练模块:以无标注的所述帧级别的图像特征和被掩蔽的无标注的所述帧级别的图像特征为输入,预测完整的帧级别的图像特征;
所述图像情感识别模型微调模块:利用少量标注的视频数据,对所述图像特征抽取模块和所述图像情感识别模型预训练模块中的参数进行微调和优化并输出句子级别图像特征;
所述多模态融合模块:采用特征层融合算法,将句子级别声学特征和句子级别图像特征进行拼接,作为多模态特征;
所述情绪状态预测模块:以所述多模态特征为输入,做情绪状态预测;
得到所述被掩蔽的无标注的所述帧级别的声学特征的具体方法为:
在所述无标注的所述帧级别的声学特征中随机选择10%的帧级别的声学特征,得到预掩蔽声学特征,将所述预掩蔽声学特征替换为同等维度的全零向量;
得到所述被掩蔽的无标注的所述帧级别的图像特征的具体方法为:
在所述无标注的所述帧级别的图像特征中随机选择10%的帧级别的图像特征,得到预掩蔽图像特征,将所述预掩蔽图像特征替换为同等维度的全零向量。
2.根据权利要求1所述的海量音视频情感识别系统,其特征在于,所述抽取帧级别的声学特征的方法:
首先将输入的音频按照固定的帧长和帧移进行分帧,得到帧级别的音频;
然后,从帧级别的音频中抽取韵律特征、音质特征和谱特征,作为帧级别的声学特征。
3.根据权利要求1所述的海量音视频情感识别系统,其特征在于,所述预测完整的帧级别的声学特征的具体方法:
将无标注的所述帧级别的声学特征和被掩蔽的无标注的所述帧级别的声学特征输入到循环神经网络进行训练;
计算所述循环神经网络的输出和所述帧级别的声学特征的L2距离,作为所述语音情感识别模型预训练模块的损失函数。
4.根据权利要求1所述的海量音视频情感识别系统,其特征在于,所述语音情感识别模型微调模块包括,声学均值池化层和声学全连接层;所述声学均值池化层和所述声学全连接层连接;
所述声学均值池化层:生成句子级别声学特征;
所述声学全连接层:预测声学句子的情绪状态。
5.根据权利要求4所述的海量音视频情感识别系统,其特征在于,采用预测声学句子的情绪状态和真实音频标注结果的交叉熵作为损失函数,对所述声学特征抽取模块和所述语音情感识别模型预训练模块中的参数进行微调和优化。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院自动化研究所,未经中国科学院自动化研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110253708.8/1.html,转载请声明来源钻瓜专利网。