[发明专利]一种跨模态上下文编码的对话情感识别方法及系统在审
申请号: | 202210377011.6 | 申请日: | 2022-04-12 |
公开(公告)号: | CN114463688A | 公开(公告)日: | 2022-05-10 |
发明(设计)人: | 李太豪;阮玉平;张晓宁;黄剑韬;郑书凯 | 申请(专利权)人: | 之江实验室 |
主分类号: | G06V20/40 | 分类号: | G06V20/40;G06V40/16;G06V40/20;G06F40/35;G06N3/04;G06N3/08 |
代理公司: | 杭州浙科专利事务所(普通合伙) 33213 | 代理人: | 孙孟辉 |
地址: | 311100 浙江省杭*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 跨模态 上下文 编码 对话 情感 识别 方法 系统 | ||
1.一种跨模态上下文编码的对话情感识别方法,其特征在于,包括以下步骤:
步骤S1,将多轮对话中每条语句对应的视频模态、音频模态及文本模态信息分别进行编码,得到各语句对应的视觉模态表征向量序列、语音模态表征向量序列及文本模态表征向量序列;
步骤S2,将多轮对话的视觉模态表征向量序列、语音模态表征向量序列及文本模态表征向量序列分别进行模态内的上下文编码,得到对话中各语句的单模态上下文编码表征;
步骤S3,将对话中各语句的单模态上下文编码表征进行两两组合编码,得到对话中各语句跨模态融合的上下文编码;
步骤S4,将跨模态融合的上下文编码表征进行自适应的信息汇总,并对语句的情感类别进行判断。
2.如权利要求1所述的一种跨模态上下文编码的对话情感识别方法,其特征在于,所述步骤S1具体包括以下步骤:
步骤S11,将原始多轮对话的视频切分成
步骤S12,对视频图像帧序列中的视频图像帧进行人脸检测,提取说话人人脸图片表征向量,得到视觉模态表征向量序列;
步骤S13,提取语音波形信号中语音信号帧的fbank滤波器组语音特征,通过LSTM循环神经网络得到语音模态表征向量序列;
步骤S14,利用预训练模型BERT提取文本语句的文本语义特征,得到文本模态表征向量序列。
3.如权利要求2所述的一种跨模态上下文编码的对话情感识别方法,其特征在于,步骤S12具体为:
对于语句片段对应的视频图像帧序列,设其包含张图片,即表达式:
使用开源人脸检测工具对中的每帧图像进行人脸区域标定,并截取对应的人脸区域图像,得到只包含人脸的图像帧序列,表达式为:
针对人脸图片帧序列,统一规整其中每张图片的尺寸,并输入到开源预训练模型EfficientNet-B1中,取该模型最后一个隐层输出作为输入图片的表征向量;
将中所有人脸图片表征的最大值池化向量作为语句片段的视觉模态表征向量,得到视觉模态表征向量序列。
4.如权利要求2所述的一种跨模态上下文编码的对话情感识别方法,其特征在于,步骤S13具体为:
对语句片段对应的语音波形信号,抽取其fbank滤波器组语音特征,得到语音特征向量序列,表达式为:
将语音特征向量序列输入到单层的LSTM循环神经网络中,设定隐层维度,取编码后的LSTM隐层状态的最大值池化向量作为语句片段的语音模态表征向量,得到语音模态表征向量序列,表达式为:
。
5.如权利要求2所述的一种跨模态上下文编码的对话情感识别方法,其特征在于,步骤S14具体为:
对语句片段对应的文本语句,将其输入到中文预训练语言模型BERT中,取最后一层编码表征向量作为语句片段的文本模态表征向量,得到文本模态表征向量序列,表达式为:
。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于之江实验室,未经之江实验室许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210377011.6/1.html,转载请声明来源钻瓜专利网。