[发明专利]海量音视频情感识别系统有效
申请号: | 202110253708.8 | 申请日: | 2021-03-09 |
公开(公告)号: | CN112633263B | 公开(公告)日: | 2021-06-08 |
发明(设计)人: | 陶建华;连政;刘斌;孙立才 | 申请(专利权)人: | 中国科学院自动化研究所 |
主分类号: | G06K9/00 | 分类号: | G06K9/00;G06K9/62;G10L15/02;G10L15/06;G10L15/16;G10L25/63;G06N3/04 |
代理公司: | 北京华夏泰和知识产权代理有限公司 11662 | 代理人: | 孙剑锋;刘蔓莉 |
地址: | 100190 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 海量 视频 情感 识别 系统 | ||
本申请涉及海量音视频情感识别系统,包括:声学特征抽取模块,从音频数据中抽取声学特征;语音情感识别模型预训练模块,利用海量无标注的音频数据,对语音情感识别模型进行预训练;语音情感识别模型微调模块,利用少量标注的音频数据,对语音情感识别模型进行微调;图像特征抽取模块,用于从输入的视频数据中,抽取图像特征;图像情感识别模型预训练模块,利用海量无标注的视频数据,对图像情感识别模型进行预训练;图像情感识别模型微调模块,利用少量标注的视频数据,对图像情感识别模型进行微调;多模态融合模块,将微调后的语音情感识别模型和图像情感识别模型进行融合;情绪状态预测模块,利用多模态融合后的结果,预测个体的情绪状态。
技术领域
本申请涉及情感识别领域,尤其涉及海量音视频情感识别系统。
背景技术
情感识别技术不仅具有重大的科学意义,而且极具经济价值,有着广泛的应用前景。同时,其应用场景也不仅仅局限于人机交互领域,在其他诸多领域都可以发挥重要作用,例如对话生成、社会媒体分析和智能系统。
由于情感具有一定模糊性,不同人对于相同的内容可能会有不同的感受。就像莎士比亚所说:“一千个观众眼中有一千个哈姆雷特”,每个人对待任何事物都有自己的看法。为了缓解情感的模糊性,在标注过程中,我们常常需要邀请几十位专业标注人员,对情感数据进行标注,并选择标注结果的众数,作为最终的标注结果。这就导致了情感标注费时费力,很难收集大体量的标注样本。
申请公布号CN107609572涉及多模态情感计算领域,提出了一种基于神经网络和迁移学习的多模态情感识别方法、系统,旨在解决情感数据难以获取且标注困难,使得相应识别模型不能够充分训练,造成多模态情感识别准确率不能满足需求的问题,该方法基于大规模数据训练深度神经网络并通过迁移学习获取音频特征提取器、视频特征提取器,进而对多模态情感数据进行音频特征、视频特征的提取,从而识别各语音情感类别的概率、各视频情感类别的概率,并通概率值判断最终情感类别。该方法可以有效的融合音视频两个模态,提高了多模态情感识别的准确率。
申请公布号CN 110852215 A一种多模态情感识别方法、系统及存储介质,所述方法包括:响应所监听到的情感识别任务请求,采集音视频数据;从音视频数据中提取视频情感特征、音频情感特征和语义情感特征;将视频情感特征、音频情感特征和语义情感特征进行特征融合;依据融合情感特征进行情感特征识别。所述系统包括CPU、FPGA和存储单元;CPU能够执行前述方法步骤,FPGA能够执行前述方法中的特征提取及特征融合步骤;本发明依据视频、音频及语义情感特征融合结果进行情感特征识别,能够显著提高情感识别的准确率;将多模态情感特征提取算法同时嵌入CPU及FPGA,依据利用率选择执行设备,有助于提高算法运行速度、降低延迟。
为了解决这一问题,本发明提供了一种基于海量音视频的情感识别系统,通过引入海量无标注的音视频数据,提升低资源情况下情感识别的性能。
发明内容
为了解决上述技术问题或者至少部分地解决上述技术问题,本申请提供了一种海量音视频情感识别系统,包括:
声学特征抽取模块、语音情感识别模型预训练模块、语音情感识别模型微调模块、图像特征抽取模块、图像情感识别模型预训练模块、图像情感识别模型微调模块、多模态融合模块和情绪状态预测模块;所述声学特征抽取模块与所述语音情感识别模型预训练模块连接,所述语音情感识别模型预训练模块与所述语音情感识别模型微调模块连接,所述图像特征抽取模块与所述图像情感识别模型预训练模块连接,所述图像情感识别模型预训练模块与所述图像情感识别模型微调模块连接,所述语音情感识别模型微调模块和所述图像情感识别模型微调模块分别与所述多模态融合模块连接,所述多模态融合模块与所述情绪状态预测模块连接;
所述声学特征抽取模块:从输入的音频数据中抽取帧级别的声学特征;
所述语音情感识别模型预训练模块:以无标注的所述帧级别的声学特征和被掩蔽的无标注的所述帧级别的声学特征为输入,预测完整的帧级别的声学特征;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院自动化研究所,未经中国科学院自动化研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110253708.8/2.html,转载请声明来源钻瓜专利网。