[发明专利]一种基于RNN和PAD情感模型的情感语音合成方法在审
申请号: | 202010907929.8 | 申请日: | 2020-09-02 |
公开(公告)号: | CN112185345A | 公开(公告)日: | 2021-01-05 |
发明(设计)人: | 周世杰;周净;程红蓉;廖永建;刘启和;谭浩;刘辉;徐阳;王攀 | 申请(专利权)人: | 电子科技大学 |
主分类号: | G10L13/08 | 分类号: | G10L13/08;G10L13/04;G10L13/033;G10L13/02 |
代理公司: | 成都九鼎天元知识产权代理有限公司 51214 | 代理人: | 徐静 |
地址: | 611731 四川*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 rnn pad 情感 模型 语音 合成 方法 | ||
1.一种基于RNN和PAD情感模型的情感语音合成方法,其特征在于,包括:
步骤1,获取情感语音库,并基于情感语音库获取训练数据:
(1)利用PAD情感量表对情感语音库进行PAD量化标注得到PAD值;
(2)对情感语音库进行文本分析得到上下文相关标注;
(3)对情感语音库提取声学特征,得到特征参数MGC、BAP和F0;
步骤2,将所述训练数据输入基于LSTM的RNN模型进行训练,得到训练后的特征参数MGC、BAP和F0;
步骤3,基于PAD情感模型,利用欧几里得距离计算用于修正所述训练后的特征参数MGC、BAP和F0的权重,然后利用权重对训练后的特征参数MGC、BAP和F0进行修正;
步骤4,将待合成的文本经过文本分析得到上下文相关标注,然后利用声码器将其与修正后的特征参数MGC、BAP和F0合成为情感语音。
2.根据权利要求1所述的基于RNN和PAD情感模型的情感语音合成方法,其特征在于,步骤3中计算PAD情感模型中某一维度的欧几里得距离的方法为:
其中,计算得到的所述欧几里得距离S(p1-p2)是指训练时的PAD值与PAD情感模型中的典型情感的PAD值之间的欧几里得距离;p1和p2分别是训练时的PAD值与PAD情感模型中的典型情感的PAD值;σ1和σ2分别是训练时的PAD值与PAD情感模型中的典型情感的PAD值的方差。
3.根据权利要求2所述的基于RNN和PAD情感模型的情感语音合成方法,其特征在于,步骤3中基于PAD情感模型计算某一情感与典型情感的欧几里得距离的方法为:
其中,SP、SA和SD均采用公式(1)计算。
4.根据权利要求3所述的基于RNN和PAD情感模型的情感语音合成方法,其特征在于,步骤3中计算用于修正所述训练后的特征参数MGC、BAP和F0的权重的方法为:
其中,Mi是要修正的情感语音的第i个典型情感的权重,Si是要修正的情感语音与第i个典型情感之间的欧几里得距离,n为情感种类数,Smax为要修正的情感语音与第i个典型情感之间的欧几里得距离最大值。
5.根据权利要求4所述的基于RNN和PAD情感模型的情感语音合成方法,其特征在于,步骤3中利用权重对训练后的特征参数MGC、BAP和F0进行修正的方法为:
首先采用公式(4)计算修正量L′;
其中,Li为第i个典型情感的特征参数,L为步骤4合成后的情感语音的特征参数;
然后利用修正量L′修正对训练后的特征参数MGC、BAP和F0进行修正。
6.根据权利要求1-5任一项所述的基于RNN和PAD情感模型的情感语音合成方法,其特征在于,所述的上下文相关标注是指包含音素信息及其上下文信息的上下文相关标注。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于电子科技大学,未经电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010907929.8/1.html,转载请声明来源钻瓜专利网。