[发明专利]语音合成模型的改进方法和语音合成方法及装置有效

申请号：	202010721985.2	申请日：	2020-07-24
公开（公告）号：	CN111862934B	公开（公告）日：	2022-09-27
发明（设计）人：	俞凯;徐志航;陈博	申请（专利权）人：	思必驰科技股份有限公司
主分类号：	G10L13/02	分类号：	G10L13/02;G10L13/04
代理公司：	北京商专永信知识产权代理事务所(普通合伙) 11400	代理人：	黄谦;邓婷婷
地址：	215123 江苏省苏州市苏***	国省代码：	江苏;32
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	语音合成模型改进方法装置
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开语音合成模型的改进方法和语音合成方法及装置，其中，一种语音合成模型的改进方法，包括：语音合成模型的改进方法，其中，所述语音合成模型包括受x‑vector控制的LSTM模块，所述方法包括：将经由x‑vector提取器提取的说话人嵌入作为所述语音合成模型的额外输入；利用所述说话人嵌入在受x‑vector控制的LSTM模块中，使用控制层来预测对应的控制变量的缩放和偏移。本申请的方法和装置提供的方案通过在引入x‑vector控制的模型参数的无监督自适应方法，合成未见过的说话人音频上，相较有监督自适应方法获得更好的自然度，相交基于说话人嵌入的无监督自适应方法获得更好的相似度。

技术领域

本发明属于语音合成领域，尤其涉及语音合成模型的改进方法和语音合成方法及装置。

背景技术

近年来，随着神经网络的成熟和显卡计算力的提升，端到端语音合成(Text-To-Speech)技术已经可以达到非常高得自然度，甚至可以欺骗过人耳。但是端到端系统受限于训练数据的数量，过少的训练数据无法完成一个成熟的语音合成系统。其中通过多说话人的数据一起建模是解决单说话人数据量不够的一个常见且简单的做法。多说话人的语音合成模型一般分为两种：使用说话人无关模型和说话人相关模型。说话人无关模型不引入任何与说话人相关的参数，相当于假设所有数据来自同一个说话人，而去训练一个所有人数据上的平均模型。说话人相关模型会使用各种说话人参数对不同人的语音数据进行区分建模，其实包括独热码表，说话人嵌入(Speaker embedding)等参数进行建模。

但是，在实际应用场景中，用户录制的数据通常很少，并且录制环境是不可控的自然环境而不是录音棚。因此，此类数据可能会出现一些问题，包括语音质量差，背景噪音，房间混响，发音错误和没有对应文本。所以如何从已有的录音棚环境录制的语音数据上训练的TTS模型迁移到自然环境录制的新数据上是需要考虑的。从预先训练的TTS模型进行自适应训练是一种流行且常用的解决方法。依据是否使用人工校对的对应文本，自适应方法大致可分为两种：有监督的自适应和无监督自适应。

其中，有监督的自适应方法使用音频和对应文本来微调预先训练的TTS模型参数(或部分模型参数)。许多研究人员探索了不同说话人适应方法，包括把整个语音合成模型分为和说话人相关的部分和非说话人相关的部分，让新的数据去更新说话人相关的参数而保持其他非说话人相关的参数不变。其他研究小组把说话人网络和TTS模型或声码器联合训练。由于仅使用少量数据训练所有模型参数通常会导致过度拟合，自动语音识别(ASR)任务中一些特别的自适应技术也被引入TTS任务当中。例如，说话人自适应训练(SAT)，学习隐藏单元向量(LHUC)。

无监督自适应方法仅需要语音数据，而无需对应文本。基于说话者嵌入的无监督方法一般通过说话人嵌入网络提供新的说话人的嵌入，然后保持模型参数不变而更新对应的说话人嵌入的输入来到达无监督自适应的效果。还有一种特别的无监督自适应，可以通过添加一个辅助语音编码器来代替文本编码器来对模型进行梯度反传更新，而无需使用对应音频的文本。

发明人在实现本申请的过程中发现，现有方案至少存在以下缺陷：

1)有监督自适应：在目标数据量比较少的情况下，更新模型参数经常会过拟合，导致合成的声音自然度下降。用LHUC等做法会减小更新的模型参数量，在一定程度上可以缓解过拟合的问题，但是如果目标数据和原先的数据分布差别很大，就无法很好拟合新的数据。

2)无监督自适应：一般来说这种方法在集内数据，或者相似分布数据上有很好的自然度。但是由于此方法无法直接更新模型参数，对于新数据拟合不充分，导致合成的音频经常会和原始说话人不够相似。

发明内容

本发明实施例提供一种语音合成模型的改进方法及装置，用于至少解决上述技术问题之一。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于思必驰科技股份有限公司，未经思必驰科技股份有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202010721985.2/2.html，转载请声明来源钻瓜专利网。

同类专利

专利分类

G 物理

G10 乐器；声学
G10L 语音分析或合成；语音识别；音频分析或处理
G10L13-00 语音合成；文本-语音合成系统
G10L13-02 .产生合成语音的方法；语音合成设备
G10L13-06 .语音合成设备中使用的基本语音单位；级联规则
G10L13-08 .文本分析或文本以外的语音合成参数的产生，例如语义图翻译为音素、韵律产生、重音或声调测定
G10L13-04 ..语音合成系统的零部件，例如合成设备结构或存储器管理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]语音合成模型的改进方法和语音合成方法及装置有效

专利文献下载