[发明专利]一种用于多模态情绪检测的特征级融合方法在审
申请号: | 201910663806.1 | 申请日: | 2019-07-23 |
公开(公告)号: | CN110569869A | 公开(公告)日: | 2019-12-13 |
发明(设计)人: | 吴哲夫;陈智伟 | 申请(专利权)人: | 浙江工业大学 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06F17/27;G10L17/26;G06N3/04 |
代理公司: | 33241 杭州斯可睿专利事务所有限公司 | 代理人: | 王利强 |
地址: | 310014 浙江省*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 融合 向量 得分概率 数据集中 映射 注意力 音频特征向量 神经 准确度 反向传播 分类概率 函数计算 加权加法 模态特征 情绪识别 情绪预测 矢量序列 特征融合 文本形态 音频文件 音频信息 应用单层 矢量 多模态 交叉熵 转录本 单峰 多维 高维 权重 分类 引入 检测 情绪 分配 创建 | ||
一种用于多模态情绪检测的特征级融合方法,从公开的数据集中获得其文本形态的转录本;在矢量序列X上应用单层CNN;使用开源工具openSMILE从数据集中的音频文件提取音频信息,将高维矢量映射到密集的神经层中,获得音频特征向量;将多维自注意作为特征融合方法用于计算单峰特征的注意力得分概率;使用注意力得分概率执行加权加法来创建融合向量;将生成的融合向量su映射到另一个密集的神经层上;使用softmax函数计算融合向量的分类概率;使用分类交叉熵计算基于反向传播的训练的批量损失Loss,获得最佳情绪预测结。本发明引入了自注意机制,为两种模态特征分配适当的权重,获得融合特征,从而提高情绪识别的准确度。
技术领域
本发明提出了一种不同与传统融合方法的新的特征级融合方法。本方法将文本和音频模态的特征分别进行提取,引入了自注意机制,为两种模态特征分配适当的权重,获得融合特征,从而提高情绪识别的准确度。具体涉及的方法为:基于自注意机制的特征级融合方法。
背景技术
情感检测是一种具有广阔应用前景的热门研究领域,机器可以通过准确识别人类情绪并对这些情绪做出反应来增强人机交互,在医学,教育,营销,安全和监视领域情绪识别也具有重要的应用。
传统的情感检测方法只利用单个视觉或音频信号等形态,存在一定的局限性。相比较单模态的情绪检测,两种或多模态拥有更多的情感信息,能够提高情感识别的准确率。因此,最近的研究重点转向利用多种形式的信息的多模式处理上。
发明内容
为了克服单模态情绪识别的局限性,充分利用多模态下得更多的情感信息,提高情绪识别的性能,本发明提出了一种基于自注意机制的特征级融合方法。可以在公开的多模态获取数据,方法简单,稳定性好。
本发明解决其技术问题所采用的技术方案是:
一种用于多模态情绪检测的特征级融合方法,包括以下步骤:
步骤1:从公开的数据集中获得其文本形态的转录本,转录本S是由n个单词组成的句子;
步骤2:根据已有的快速文本嵌入字典,将最初维度为V的单热矢量单词Wi嵌入到低维实值向量中,获得矢量序列X;
步骤3:在矢量序列X上应用单层CNN,输入矢量序列X,生成整体文本特征;
步骤4:使用开源工具openSMILE从数据集中的音频文件提取音频信息,获得有关说话者情绪状态的特征向量称为ain;
步骤5:将高维矢量ain映射到密集的神经层中,获得音频特征向量au;
步骤6:引入多维自注意模块,用于计算单峰文本特征tu和音频特征au的注意力得分ak,再通过softmax函数将ak转换为概率分布pk,i;
步骤7:根据计算出的文本特征和音频特征注意力概率Pk,i执行加权加法来创建融合向量su,多维自注意的融合向量su的第k个元素,即su[k];
步骤8:将生成的融合向量su映射到另一个密集的神经层上;
步骤9:使用softmax函数计算融合向量su的分类概率从而进行情感类别的分类;
步骤10:使用分类交叉熵计算基于反向传播的训练的批量损失Loss,不断调整权重与偏差,使损失loss最小,获得最佳情绪预测结果。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江工业大学,未经浙江工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910663806.1/2.html,转载请声明来源钻瓜专利网。