[发明专利]语音情绪识别模型训练方法及电子设备在审
申请号: | 202111010138.6 | 申请日: | 2021-08-31 |
公开(公告)号: | CN113593532A | 公开(公告)日: | 2021-11-02 |
发明(设计)人: | 简仁贤;许曜麒;林长洲 | 申请(专利权)人: | 竹间智能科技(上海)有限公司 |
主分类号: | G10L15/06 | 分类号: | G10L15/06;G10L25/63 |
代理公司: | 上海湾谷知识产权代理事务所(普通合伙) 31289 | 代理人: | 倪继祖 |
地址: | 200030 上海市徐*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 语音 情绪 识别 模型 训练 方法 电子设备 | ||
本发明公开了一种语音情绪识别模型训练方法及电子设备,方法包括:获取语者识别语料;从所述语者识别语料中提取频域特征数据;使用所述频域特征数据进行训练,获得语音情绪特征抽取器;获取语音情绪语料;利用所述语音情绪特征抽取器从所述语音情绪语料中提取语音情绪特征数据;使用语音情绪特征数据进行训练,获得语音情绪识别模型。本发明仅需少量的语音情绪语料就能使得训练得到的语音情绪识别模型也具有较高的精确度。
技术领域
本发明涉及语音情绪识别技术领域,尤其涉及语音情绪识别模型训练方法及电子设备。
背景技术
目前,深度学习在各领域的效果表现非常卓越,具有运算硬件性能提升、模型架构深化等影响。其中,所用到的训练语料的规模大小是所能到达上述效果的最关键因素。语音情绪识别是可以实现的深度学习的一种,但是语音情绪识别的语料量非常稀少,无法应用深度学习达到更好的识别效果。相较之下语音识别、语者识别能取得的训练语料则是语音情绪识别的数干倍、数万倍。
要解决语音情绪识别训练数据不足的问题,最直接的做法即是广泛收集、录制语料,但语料收集属于高成本的任务,尤其语音情绪识别的语料收集成本更是比其他领域更高。一般来说语音情绪识别可先区分四类较常用的类别:生气(Angry)、高兴(Happy)、中立(Neutral)、悲伤(Sad),收集相关的语音情绪语料则需要找专业演员来录制,并非一般语者可以演绎。甚至到更进阶的情绪类别:惊讶、恐惧、厌恶、蔑视、疑惑,更是大副提升了收集难度。这种方式的可行性不高。
发明内容
本发明的目的在于提供一种语音情绪识别模型训练方法,仅需少量的语音情绪语料就能使得训练得到的语音情绪识别模型也具有较高的精确度。
实现上述目的的技术方案是:
本申请提供一种语音情绪识别模型训练方法,包括:
获取语者识别语料;
从所述语者识别语料中提取频域特征数据;
使用所述频域特征数据进行训练,获得语音情绪特征抽取器;
获取语音情绪语料;
利用所述语音情绪特征抽取器从所述语音情绪语料中提取语音情绪特征数据;
使用语音情绪特征数据进行训练,获得语音情绪识别模型。
在一实施例中,所述从所述语者识别语料中提取频域特征数据,包括:
将所述语者识别语料的语音经过傅里叶变换,获得第一变换结果;
将所述第一变换结果通过梅尔滤波器产生第一梅尔频率倒谱系数特征,作为频域特征数据。
在一实施例中,所述使用所述频域特征数据进行训练,获得语音情绪特征抽取器,包括:
依次完成多次迭代过程,每次迭代过程包括:
随机选择一部分所述频域特征数据作为当前语者模型输入;
使用当前语者模型输入对当前语者识别模型进行训练,并通过前向传播算法获取语音情绪特征值;
将语音情绪特征值和语音情绪特征真实值的差距记为第一最小化交叉熵;
根据第一最小化交叉熵判断当前语者识别模型是否满足收敛条件,若满足,将当前语者识别模型作为最终语者识别模型;若不满足,迭代次数加1,以所述语音情绪特征值逐步靠近语音情绪特征真实值为目标,通过反向传播算法更新当前语者识别模型的参数,进行一下个迭代过程;
将最终语者识别模型作为语音情绪特征抽取器。
在一实施例中,所述利用所述语音情绪特征抽取器从所述语音情绪语料中提取语音情绪特征数据,包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于竹间智能科技(上海)有限公司,未经竹间智能科技(上海)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111010138.6/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种压紧装置及弯曲机
- 下一篇:基于区块链技术的网络安全漏洞响应方法