[发明专利]一种基于RNN和PAD情感模型的情感语音合成方法在审
申请号: | 202010907929.8 | 申请日: | 2020-09-02 |
公开(公告)号: | CN112185345A | 公开(公告)日: | 2021-01-05 |
发明(设计)人: | 周世杰;周净;程红蓉;廖永建;刘启和;谭浩;刘辉;徐阳;王攀 | 申请(专利权)人: | 电子科技大学 |
主分类号: | G10L13/08 | 分类号: | G10L13/08;G10L13/04;G10L13/033;G10L13/02 |
代理公司: | 成都九鼎天元知识产权代理有限公司 51214 | 代理人: | 徐静 |
地址: | 611731 四川*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 rnn pad 情感 模型 语音 合成 方法 | ||
本发明公开了一种基于RNN和PAD情感模型的情感语音合成方法,包括:步骤1,基于情感语音库获取训练数据,包括PAD量化标注得到的PAD值、上下文相关标注、以及特征参数MGC、BAP和F0;步骤2,将训练数据输入基于LSTM的RNN模型进行训练,得到训练后的特征参数MGC、BAP和F0;步骤3,基于PAD情感模型,利用欧几里得距离计算用于修正训练后的特征参数MGC、BAP和F0的权重,然后利用权重对训练后的特征参数进行修正;步骤4,将待合成的文本经过文本分析得到上下文相关标注,然后将其与修正后的特征参数MGC、BAP和F0合成为情感语音。本发明将基于LSTM的RNN模型和PAD情感模型加入到语音合成中,解决传统语音合成带来的问题以及语音合成中情感不足的问题,提高了语音合成的自然度。
技术领域
本发明涉及,尤其是一种基于RNN和PAD情感模型的情感语音合成方法。
背景技术
近年来,语音合成技术从最初的物理机理语音合成,波形单位选择语音合成,韵律转换语音合成到统计参数语音合成和深度学习语音合成,合成语音的自然度有了较大的提升。然而,这些方法只是单纯的将文本信息输出为中性语音信息,使收听人长时间听后感到单调乏味,而且并没有携带应有的情感内容,使人听后容易产生偏差。
随着智能语音合成在人类语言上的应用,增加语音自然度的需求变得更加明显,语音合成自然度方面最明显的不足是情感表现力缺失,虽然情感语音合成在最近十年获得较大的发展,但在情感度上仍存在较大不足。主要有以下问题:
一、波形单位选择方法需要庞大的情感语音数据库,该数据库建立不易;
二、韵律特征修改方法通过修改韵律特征来实现情感语音合成,这会降低语音合成的质量;
三、基于HMM的统计参数方法生成的合成语音的质量已经得到了极大的提高,但是它的自然性仍然与实际人类语音相差甚远。
发明内容
本发明所要解决的技术问题是:针对上述存在的问题,提供一种基于RNN和PAD情感模型的情感语音合成方法。
本发明采用的技术方案如下:
一种基于RNN和PAD情感模型的情感语音合成方法,包括:
步骤1,获取情感语音库,并基于情感语音库获取训练数据:
(1)利用PAD情感量表对情感语音库进行PAD量化标注得到PAD值;
(2)对情感语音库进行文本分析得到上下文相关标注;
(3)对情感语音库提取声学特征,得到特征参数MGC、BAP和F0;
步骤2,将所述训练数据输入基于LSTM的RNN模型进行训练,得到训练后的特征参数MGC、BAP和F0;
步骤3,基于PAD情感模型,利用欧几里得距离计算用于修正所述训练后的特征参数MGC、BAP和F0的权重,然后利用权重对训练后的特征参数MGC、BAP和F0进行修正;
步骤4,将待合成的文本经过文本分析得到上下文相关标注,然后利用声码器将其与修正后的特征参数MGC、BAP和F0合成为情感语音。
进一步地,步骤3中计算PAD情感模型中某一维度的欧几里得距离的方法为:
其中,计算得到的所述欧几里得距离S(p1-p2)是指训练时的PAD值与PAD情感模型中的典型情感的PAD值之间的欧几里得距离;p1和p2分别是训练时的PAD值与PAD情感模型中的典型情感的PAD值;σ1和σ2分别是训练时的PAD值与PAD情感模型中的典型情感的PAD值的方差。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于电子科技大学,未经电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010907929.8/2.html,转载请声明来源钻瓜专利网。