[发明专利]基于多模态特征的情绪定量方法、装置、设备及存储介质有效
申请号: | 202310674488.5 | 申请日: | 2023-06-08 |
公开(公告)号: | CN116415137B | 公开(公告)日: | 2023-10-10 |
发明(设计)人: | 王刚;刘蓬博;李楠茜;王静;丰雷;贺志阳;胡加学;赵景鹤;鹿晓亮;赵志伟 | 申请(专利权)人: | 讯飞医疗科技股份有限公司;首都医科大学附属北京安定医院 |
主分类号: | G06F18/213 | 分类号: | G06F18/213;G06F18/25;G06F18/23;G16H50/30;G06N3/0464;G06N3/08 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 王雨 |
地址: | 230088 安徽省合肥市*** | 国省代码: | 安徽;34 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 多模态 特征 情绪 定量 方法 装置 设备 存储 介质 | ||
1.一种基于多模态特征的情绪定量方法,其特征在于,包括:
获取对待测对象采集的音频、视频数据,及音频数据对应的识别文本,其中,所述音频、视频数据为对所述待测对象在设定谈话场景下所采集的数据;
提取所述识别文本的文本特征、提取所述音频数据的音频局部特征,以及提取所述视频数据的视频局部特征;
采用可学习的聚类模块分别对所述音频局部特征和所述视频局部特征进行维度压缩和聚类,得到聚类后的高维的音频全局特征和视频全局特征;
将所述文本特征、所述音频全局特征和所述视频全局特征进行融合,并基于融合特征确定所述待测对象的情绪参考数据。
2.根据权利要求1所述的方法,其特征在于,所述情绪参考数据包括:是否存在指定类型情绪问题,和/或,所存在的指定类型情绪问题的严重程度。
3.根据权利要求1所述的方法,其特征在于,提取所述识别文本的文本特征的过程,包括:
采用预训练语言模型提取所述识别文本的文本特征。
4.根据权利要求1所述的方法,其特征在于,所述可学习的聚类模块采用NetVLAD网络结构。
5.根据权利要求1所述的方法,其特征在于,所述情绪定量方法通过预训练的多模态数据处理模型实现,所述模型以标注有情绪参考数据标签的训练样本作为训练数据训练得到,其中,所述训练样本包括对训练对象所采集的训练音频、训练视频及训练音频对应的识别文本。
6.根据权利要求5所述的方法,其特征在于,所述多模态数据处理模型包括:
多模态数据获取模块,用于分别输入对待测对象采集的音频、视频数据及所述识别文本;
文本特征提取模块,用于提取所述识别文本的文本特征;
局部特征提取模块,用于分别提取所述音频数据的音频局部特征,以及提取所述视频数据的视频局部特征;
聚类模块,用于分别对所述音频局部特征和所述视频局部特征进行维度压缩和聚类,得到聚类后的高维的音频全局特征和视频全局特征;
特征融合模块,用于将所述文本特征、所述音频全局特征和所述视频全局特征进行融合,得到融合特征;
结果预测模块,用于基于所述融合特征预测所述待测对象的情绪参考数据。
7.根据权利要求5所述的方法,其特征在于,所述模型训练时的训练目标,包括:
以模型预测的训练对象的情绪参考数据趋近于所述训练对象的情绪参考数据分类标签为第一训练目标;
以最大化相同分类标签的不同模态特征之间的相关度,最小化不同分类标签的不同模态特征之间的相关度为第二训练目标,其中不同模态特征包括:音频全局特征、视频全局特征和文本特征三种模态特征。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于讯飞医疗科技股份有限公司;首都医科大学附属北京安定医院,未经讯飞医疗科技股份有限公司;首都医科大学附属北京安定医院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202310674488.5/1.html,转载请声明来源钻瓜专利网。