[发明专利]语音情感识别方法、装置、电子设备和可读介质有效
申请号: | 201811583191.3 | 申请日: | 2018-12-24 |
公开(公告)号: | CN109599128B | 公开(公告)日: | 2022-03-01 |
发明(设计)人: | 韩文静;李岩;陈晓敏;姜涛 | 申请(专利权)人: | 北京达佳互联信息技术有限公司 |
主分类号: | G10L25/63 | 分类号: | G10L25/63;G10L25/30;G10L15/04;G10L15/06 |
代理公司: | 北京成创同维知识产权代理有限公司 11449 | 代理人: | 蔡纯;冯丽欣 |
地址: | 100084 北京市海淀区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 语音 情感 识别 方法 装置 电子设备 可读 介质 | ||
本申请是关于一种语音情感识别方法、语音识别装置、电子设备和可读介质。该语音情感识别方法将待检测语音段输入到语音情感识别模型中,得到情感标签序列,将情感标签序列包含的情感标签按照出现次数进行排序;并采用出现次数大于预设值的情感标签作为待检测语音段的情感标签。该实施例能够输出细粒度的情感标签序列,从而能够细粒度地刻画情感信息的时序性,并提高语音情感识别模型的精度。
技术领域
本申请属于声音信号处理领域,尤其是一种语音情感识别方法、装置、电子设备和可读介质。
背景技术
语音情感识别是一种从用户语音中识别用户情感状态的技术,在人机交互、健康监控等领域有着迫切的应用需求,是人工智能领域的一个重要分支。语音中表达的情感内容是一种时序信息,因此随着近年来人工神经网络技术的发展,有越来越多的工作使用RNN(Recurrent Neural Network,循环神经网络)等时序网络模型对语音情感识别任务进行时序建模。
当前的语音情感识别领域所使用的时序建模方法虽各有千秋,却能够被统一到sequence-to-label(序列到标签)的框架之下,即以sequence的方式输入语音帧特征,然后使用RNN将帧特征编码成更长时、更高层的特征,最后使用非时序分类器对句特征进行识别。
但是,这种框架实际上是一种伪时序建模,不能全面地刻画情感信息的时序性,也无法彻底地发挥时序网络模型的时序建模能力。
发明内容
为克服相关技术中存在的问题,本申请公开一种语音情感识别方法、装置、电子设备和可读介质,用于解决现有技术存在的问题。
根据本发明实施例的第一方面,提供一种语音情感识别方法,包括:
获取待检测语音段;
将待检测语音段输入语音情感识别模型,得到所述待检测语音段的情感标签序列,所述情感标签序列包括按照时序对应的多个情感标签;
将所述情感标签序列包含的情感标签按照出现次数进行排序;以及
采用出现次数大于预设值的情感标签作为所述待检测语音段的情感标签。
可选地,还包括:通过训练神经网络得到所述语音情感识别模型,所述训练步骤包括:
收集多个语音段和所述多个语音段对应的句子级情感标签;
将每个语音段对应的句子级情感标签映射为情感标签序列;
采用所述多个语音段和所述语音段对应的情感标签序列对所述神经网络进行训练,通过计算CTC损失函数不断地修正神经网络的权值,以得到所述语音情感识别模型。
可选地,还包括:在所述采用所述多个语音段和所述语音段对应的情感标签序列对所述神经网络进行训练步骤之前,
将所述多个语音段的每个语音段进行分帧处理,从每个帧数据中获取多个语音特征,并组成每个语音段对应的帧特征序列;
则在将所述待检测语音段输入到所述语音情感识别模型之前,还包括:将所述待检测语音段进行分帧处理,从每个帧数据中获取多个语音特征,组成所述待检测语音段对应的帧特征序列。
可选地,所述将所述语音段的句子级情感标签映射为情感标签序列包括以下步骤中的一种:
将所述语音段分成n个非静音段,所述句子级情感标签对应于每个非静音段重复n次,并在相邻的两个非静音段之间填充空值,组成所述情感标签序列;和
将所述语音段分成m个音素,将所述句子级情感标签对应于每个音素重复m次,并在相邻的两个音素之间填充空值,组成所述情感标签序列,m和n为正整数。
可选地,所述帧特征序列包括以下语音特征中的一个或多个:频谱特征、梅尔倒普系数、共振峰、基频。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京达佳互联信息技术有限公司,未经北京达佳互联信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811583191.3/2.html,转载请声明来源钻瓜专利网。