[发明专利]一种基于对抗学习的端到端的跨语言语音情感识别方法有效
申请号: | 201910731716.1 | 申请日: | 2019-08-08 |
公开(公告)号: | CN110364186B | 公开(公告)日: | 2021-06-25 |
发明(设计)人: | 吴志勇;代东洋 | 申请(专利权)人: | 清华大学深圳研究生院 |
主分类号: | G10L25/63 | 分类号: | G10L25/63;G10L25/30;G10L25/03 |
代理公司: | 深圳新创友知识产权代理有限公司 44223 | 代理人: | 江耀纯 |
地址: | 518055 广东*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 对抗 学习 端到端 语言 语音 情感 识别 方法 | ||
1.一种基于对抗学习的端到端的跨语言语音情感识别方法,其特征在于,包括如下步骤:
S1:构建包括特征提取器、情感分类器和语言分类器的情感识别模型;
S2:接收原始数据对所述情感识别模型进行训练并在训练过程中使用梯度翻转层;所述原始数据是源语言和目标语言的语谱图或原始语音波形;所述源语言有情感标签,所述目标语言没有情感标签;
所述特征提取器接受所述原始数据作为输入,输出高层次的抽象特征用于分类;
所述情感分类器接受所述特征提取器所提取的高层次的抽象特征作为输入,输出情感标签;
所述语言分类器接受所述特征提取器所提取的高层次的抽象特征作为输入,判断该特征对应于源语言语音还是目标语言语音;
S3:利用训练好的所述情感识别模型预测源语言语音或目标语言语音的情感。
2.如权利要求1所述的基于对抗学习的端到端的跨语言语音情感识别方法,其特征在于,所述训练过程包括如下步骤:
S21:所述特征提取器接收源语言语音和目标语言语音的所述原始数据作为输入并提取特征用于所述情感分类器和所述语言分类器;
S22:筛选出对应所述源语言语音的特征作为所述情感分类器的输入得到情感标签,所述源语言语音和所述目标语言语音的特征经过一个梯度翻转层进入所述语言分类器得到语言标签。
3.如权利要求2所述的基于对抗学习的端到端的跨语言语音情感识别方法,其特征在于,所述源语言语音的数据有情感标签和语言标签;所述目标语言语音的数据仅有语言标签,或有语言标签和情感标签。
4.如权利要求3所述的基于对抗学习的端到端的跨语言语音情感识别方法,其特征在于,定义损失函数Le和Ll,其中Le根据所述情感分类器的输出与所述情感标签的差异而计算;Ll根据所述语言分类器和所述语言标签的差异而计算,则所述情感识别模型的总的损失函数L=Le+λLl,其中λ为权衡两个损失函数的权重系数。
5.如权利要求4所述的基于对抗学习的端到端的跨语言语音情感识别方法,其特征在于,所述情感分类器的参数θe按照公式更新,其中μ0为学习率;
所述语言分类器的参数θl按照公式更新;
所述特征提取器的参数θf按照公式更新。
6.如权利要求5所述的基于对抗学习的端到端的跨语言语音情感识别方法,其特征在于,训练过程中使用验证集,所述验证集上的损失函数Le和Ll不再降低时训练结束。
7.如权利要求1所述的基于对抗学习的端到端的跨语言语音情感识别方法,其特征在于,步骤S3包括如下步骤:
S31:将所述源语言语音或所述目标语言语音的原始数据输入到所述特征提取器进行特征提取;
S32:将提取的所述特征输入到情感分类器得到所述源语言语音或所述目标语言语音的情感标签。
8.如权利要求1-7任一所述的基于对抗学习的端到端的跨语言语音情感识别方法,其特征在于,所述原始数据是语音波形或语谱图。
9.如权利要求1-7任一所述的基于对抗学习的端到端的跨语言语音情感识别方法,其特征在于,所述特征提取器、所述情感分类器和所述语言分类器是CNN网络、RNN网络、DNN网络或全连接网络。
10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1-9任一所述方法的步骤。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于清华大学深圳研究生院,未经清华大学深圳研究生院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910731716.1/1.html,转载请声明来源钻瓜专利网。