[发明专利]语音情感识别方法、装置及存储介质在审
申请号: | 202010284382.0 | 申请日: | 2020-04-13 |
公开(公告)号: | CN111508530A | 公开(公告)日: | 2020-08-07 |
发明(设计)人: | 张婧琦;段建波;邹耿鹏 | 申请(专利权)人: | 腾讯科技(深圳)有限公司 |
主分类号: | G10L25/63 | 分类号: | G10L25/63 |
代理公司: | 广州三环专利商标代理有限公司 44202 | 代理人: | 熊永强;贾允 |
地址: | 518057 广东省深圳*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 语音 情感 识别 方法 装置 存储 介质 | ||
本发明提供一种语音情感识别方法、装置及存储介质。通过对第一对象与第二对象之间对话产生的语音数据进行预处理,得到三个语音片段集合,根据第一对象和第二对象在此语音数据中的会话顺序,确定出三个语音片段集合与第一对象、第二对象及其他类的映射关系,在此映射关系的基础上,基于预先确定的目标对象获取与目标对象对应的目标语音片段集合,然后根据目标语音片段集合和语音情感识别模型识别得到目标对象在语音对话中的情感类别,通过该方法,可以识别出语音数据中任一会话方在此对话中的情感类别,同时提升语音情感识别结果的准确性。
技术领域
本发明涉及语音处理技术领域,尤其涉及一种语音情感识别方法、装置及存储介质。
背景技术
在传统客服场景下,为了保证服务质量,需要有专门的客服质检员对服务记录进行抽查监听及评分,并形成质量报告反馈于业务人员和客服人员。其中,识别客服通话过程中客服和用户的情绪状态,能够有效监测服务质量情况。但客服质检员在抽样和统计过程存在耗时、效率较低、抽样中存在的问题难以覆盖全盘数据等问题。
现有的一种端到端的语音情感识别方案包括如下步骤:1、对接入系统的语音数据进行重采样,统一输入语音的采样频率,多声道数据提取左声道语音数据;2、对重采样后的语音数据进行切分,提取有效语音段,过滤掉静音或噪声部分;3、提取句子语音数据的音素特征,将每条句子语音数据转成音素序列,经词嵌入模型训练得到音素嵌入模型,通过音素嵌入模型将音素序列转换成音素向量序列。统一所有的音素向量序列长度;4、对句子语音数据做加窗分帧的处理,经快速傅里叶变换和梅尔滤波处理获得句子语音数据在时频域上的梅尔倒谱图,对倒谱图求一阶差分值和二阶差分值,进而获得包含语音静态特征和动态特征的倒谱特征图;5、基于深度神经网络确定语音情感识别模型,得到音频情绪识别结果。
然而,上述语音情感识别方法存在如下缺陷:(1)语音特征少,只用了梅尔倒谱系数(Mel-scaleFrequency Cepstral Coefficients),语音数据利用率低;(2)依赖语音转文本的准确率,并损失了语音本身的情感信息,难以准确反映人的情绪;(3)只能处理多声道的会话,即通过左右声道区分说话人的角色。
发明内容
本发明提供了一种语音情感识别方法、装置及存储介质,能够提高语音情感识别的准确度。
第一方面,本发明提供了一种语音情感识别方法,包括:
确定待识别的语音数据和目标对象,所述语音数据是基于第一对象与第二对象之间的语音对话产生的,所述目标对象选自所述第一对象或所述第二对象;
获取所述第一对象和所述第二对象之间的会话顺序;
对所述语音数据进行预处理,得到三个分别对应所述第一对象语音信息、所述第二对象语音信息和其他类语音信息的语音片段集合;
根据所述会话顺序建立所述语音片段集合与所述第一对象、所述第二对象和所述其他类的映射关系;
根据所述映射关系和所述目标对象,获取与所述目标对象对应的目标语音片段集合;
根据所述目标语音片段集合和预设的语音情感识别模型,识别所述目标对象在所述语音对话中的情感类别。
第二方面,本发明提供了一种语音情感识别装置,包括:
确定模块,用于确定待识别的语音数据和目标对象,所述语音数据是基于第一对象与第二对象之间的语音对话产生的,所述目标对象选自所述第一对象或所述第二对象;
会话顺序获取模块,用于获取所述第一对象和所述第二对象之间的会话顺序;
预处理模块,用于对所述语音数据进行预处理,得到三个分别对应所述第一对象语音信息、所述第二对象语音信息和其他类语音信息的语音片段集合;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯科技(深圳)有限公司,未经腾讯科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010284382.0/2.html,转载请声明来源钻瓜专利网。