[发明专利]一种快速配音生成方法及装置在审

申请号：	202010024022.7	申请日：	2020-01-10
公开（公告）号：	CN111179905A	公开（公告）日：	2020-05-19
发明（设计）人：	不公告发明人	申请（专利权）人：	北京中科深智科技有限公司
主分类号：	G10L13/08	分类号：	G10L13/08;G10L19/00
代理公司：	暂无信息	代理人：	暂无信息
地址：	100000 北京市丰台区航***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种快速配音生成方法装置
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开了一种快速配音生成方法及装置，该方法包括:构建配音生成框架，其中，所述配音生成框架包括扬声器编码器、合成器和声码器，所述扬声器编码器用于从单个说话人的短促讲话中提取嵌入信息，所述合成器用于根据所据嵌入信息，将文本生成频谱图，所述声码器用于根据所述频谱图推断并输出音频波形；采用端到端的方式对所述配音生成框架进行训练，得到训练之后的配音生成框架模型；将参考语音和文本输入训练之后的所述配音生成框架模型，实现快速配音生成。本发明解决了现有的文本到语音的模型不具有用任何声音生成语音的能力且数据效率低的问题。

技术领域

本发明涉及人工智能技术领域，特别涉及一种快速配音生成方法及装置。

背景技术

在许多应用机器学习领域，深度学习模型已成为主流。文字转语音(TTS)，即从文字提示中合成人工语音的过程，也不例外。比起传统的级联方法，深度模型将产生听起来更自然的语音。

专业录制的语音数据集是一种稀缺资源，要想用正确的发音、生动的语调和最低限度的背景噪音来合成一个自然的声音，需要具有相同质量的训练数据。其次，数据效率仍然是深度学习的核心问题，通常训练一个常见的文本到语音的模型，如Tacotron，通常需要数百小时的语音。此外，为这样的模型提供一个新的声音是非常昂贵的，因为它需要记录一个新的数据集并对模型进行重新训练。此外，现有的文本到语音的模型不具有用任何声音生成语音的能力，即配音生成能力。

针对上述的问题，目前尚未提出有效的解决方案。

发明内容

本发明的目的在于提供一种快速配音生成方法及装置，以解决背景技术中出现有一个或多个的问题。

第一方面，本发明实施例提供一种快速配音生成方法，包括：

构建配音生成框架，其中，所述配音生成框架包括扬声器编码器、合成器和声码器，所述扬声器编码器用于从单个说话人的短促讲话中提取嵌入信息，所述合成器用于根据所据嵌入信息，将文本生成频谱图，所述声码器用于根据所述频谱图推断并输出音频波形；

采用端到端的方式对所述配音生成框架进行训练，得到训练之后的配音生成框架模型；

将参考语音和文本输入训练之后的所述配音生成框架模型，实现快速配音生成。

进一步地，所述采用端到端的方式对所述配音生成框架进行训练，得到训练之后的配音生成框架模型的步骤包括：

分别获取扬声器编码器、合成器和声码器的训练数据集；

依次对所述扬声器编码器、合成器和声码器在不同的数据集上分别进行训练，得到训练之后的配音生成框架模型。

进一步地，在分别获取扬声器编码器、合成器和声码器的训练数据集的步骤之后，所述方法还包括：

采用均匀流形近似和投影UMAP对所述扬声器编码器训练数据集、合成器训练数据集和声码器的训练数据集进行降维处理。