[发明专利]语音情绪识别的方法、装置以及存储介质有效
申请号: | 202010833052.2 | 申请日: | 2020-08-18 |
公开(公告)号: | CN114078484B | 公开(公告)日: | 2023-06-09 |
发明(设计)人: | 孟庆林;吴海英;蒋宁;王洪斌;赵立军 | 申请(专利权)人: | 北京有限元科技有限公司 |
主分类号: | G10L25/63 | 分类号: | G10L25/63;G10L25/30;G10L25/24 |
代理公司: | 北京天昊联合知识产权代理有限公司 11112 | 代理人: | 彭瑞欣;冯建基 |
地址: | 100080 北京市海淀*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 语音 情绪 识别 方法 装置 以及 存储 介质 | ||
1.一种语音情绪识别的方法,其特征在于,包括:
获取与待识别情绪的目标对象相关的语音信息;以及
利用预设的识别模型对所述语音信息进行情绪识别,确定所述目标对象的情绪类别,其中所述识别模型包括残差网络和门控循环单元;
所述识别模型还包括特征提取网络和分类器,并且利用预设的识别模型对所述语音信息进行情绪识别,确定所述目标对象的情绪类别的操作,包括:
利用所述特征提取网络对所述语音信息进行特征提取,生成梅尔频谱图特征、一阶差分特征和二阶差分特征;
利用所述残差网络对所述梅尔频谱图特征、所述一阶差分特征和所述二阶差分特征进行特征映射,生成序列特征;
利用所述门控循环单元,对所述序列特征进行编码处理;以及
将编码处理后的所述序列特征输入所述分类器,根据所述分类器的输出结果确定所述目标对象的情绪类别。
2.根据权利要求1所述的方法,其特征在于,所述识别模型还包括注意力机制层和全连接层,并且将编码处理后的所述序列特征输入所述分类器的操作之前,还包括:
将编码处理后的所述序列特征输入所述注意力机制层进行序列对齐;以及
将序列对齐后的所述序列特征输入所述全连接层。
3.根据权利要求1所述的方法,其特征在于,获取与待识别情绪的目标对象相关的语音信息的操作,包括:
获取坐席与所述目标对象之间的对话录音信息;以及
对所述对话录音信息进行声道分离,将单声道的录音信息确定为与待识别情绪的目标对象相关的语音信息。
4.根据权利要求2所述的方法,其特征在于,还包括通过以下操作对所述识别模型进行训练:
获取多个样本对话录音数据,其中所述样本对话录音数据中包含坐席录音数据和用户录音数据;
构建所述识别模型,其中所述识别模型包括所述特征提取网络、所述残差网络、所述门控循环单元、所述注意力机制层和所述分类器;
利用所述识别模型,分别输出所述多个样本对话录音数据中包含的对象的情绪类别;以及
将所输出的情绪类别与预先设置的与所述多个样本对话录音数据对应的标注情绪类别进行比较,并且根据比较的结果调节所述识别模型,其中所述标注情绪类别用于指示所述样本对话录音数据中包含的对象的实际情绪类别。
5.根据权利要求4所述的方法,其特征在于,
将所输出的情绪类别与预先设置的与所述多个样本对话录音数据对应的标注情绪类别进行比较的操作,包括:计算所输出的情绪类别与所述标注情绪类别之间的交叉熵损失函数的值,以及
根据比较的结果调节所述识别模型的操作,包括:根据交叉熵损失函数的值,对所述识别模型进行调节。
6.一种存储介质,其特征在于,所述存储介质包括存储的程序,其中,在所述程序运行时由处理器执行权利要求1至5中任意一项所述的方法。
7.一种语音情绪识别的装置,其特征在于,包括:
获取模块,用于获取与待识别情绪的目标对象相关的语音信息;以及
情绪识别模块,用于利用预设的识别模型对所述语音信息进行情绪识别,确定所述目标对象的情绪类别,其中所述识别模型包括残差网络和门控循环单元;
所述识别模型还包括特征提取网络和分类器,并且所述情绪识别模块包括:
第一生成子模块,用于利用所述特征提取网络对所述语音信息进行特征提取,生成梅尔频谱图特征、一阶差分特征和二阶差分特征;
第二生成子模块,用于利用所述残差网络对所述梅尔频谱图特征、所述一阶差分特征和所述二阶差分特征进行特征映射,生成序列特征;
编码处理子模块,用于利用所述门控循环单元,对所述序列特征进行编码处理;以及
确定子模块,用于将编码处理后的所述序列特征输入所述分类器,根据所述分类器的输出结果确定所述目标对象的情绪类别。
8.一种语音情绪识别的装置,其特征在于,包括:
处理器;以及
存储器,与所述处理器连接,用于为所述处理器提供处理以下处理步骤的指令:
获取与待识别情绪的目标对象相关的语音信息;以及
利用预设的识别模型对所述语音信息进行情绪识别,确定所述目标对象的情绪类别,其中所述识别模型包括残差网络和门控循环单元;
所述识别模型还包括特征提取网络和分类器,并且利用预设的识别模型对所述语音信息进行情绪识别,确定所述目标对象的情绪类别的操作,包括:
利用所述特征提取网络对所述语音信息进行特征提取,生成梅尔频谱图特征、一阶差分特征和二阶差分特征;
利用所述残差网络对所述梅尔频谱图特征、所述一阶差分特征和所述二阶差分特征进行特征映射,生成序列特征;
利用所述门控循环单元,对所述序列特征进行编码处理;以及
将编码处理后的所述序列特征输入所述分类器,根据所述分类器的输出结果确定所述目标对象的情绪类别。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京有限元科技有限公司,未经北京有限元科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010833052.2/1.html,转载请声明来源钻瓜专利网。