[发明专利]神经网络生成建模以变换语音发音和增强训练数据在审
申请号: | 201910237141.8 | 申请日: | 2019-03-27 |
公开(公告)号: | CN110335584A | 公开(公告)日: | 2019-10-15 |
发明(设计)人: | 普拉韦恩·纳拉亚南;丽莎·斯卡里亚;弗朗索瓦·沙雷特;阿什利·伊丽莎白·米克斯;瑞恩·伯克 | 申请(专利权)人: | 福特全球技术公司 |
主分类号: | G10L13/02 | 分类号: | G10L13/02;G10L13/04;G06N3/04;G06N3/08 |
代理公司: | 北京连和连知识产权代理有限公司 11278 | 代理人: | 刘小峰 |
地址: | 美国密歇根*** | 国省代码: | 美国;US |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 神经网络 语音发音 输出谱 输入音频 训练数据 输入谱 建模 合成音频数据 方法和装置 生成模型 语音变换 迭代 语音 合成 传输 配置 | ||
1.一种用于生成合成语音数据的方法,所述方法包括:
从多个说话人接收包括语音发音的多个迭代的输入音频数据;
基于所述输入音频数据而生成输入谱图;
将所述输入谱图传输到被配置为生成输出谱图的神经网络;
从所述神经网络接收所述输出谱图;以及
基于所述输出谱图而生成包括所述语音发音的合成音频数据。
2.如权利要求1所述的方法,其中所述输入谱图和所述输出谱图中的一个或多个包括二维音频谱图表示。
3.如权利要求1所述的方法,其中所述语音发音包括单词、短语、句子或噪声中的一个或多个。
4.如权利要求1所述的方法,其中所述多个说话人包括现实说话人和合成说话人。
5.如权利要求1所述的方法,所述方法还包括将包括所述语音发音的所述合成音频数据传输到被配置为要使用所述合成音频数据训练的训练神经网络。
6.如权利要求1所述的方法,其中所述神经网络包括修改的神经网络架构,所述修改的神经网络架构包括在编码器模块中的卷积层和在解码器模块中的反卷积层,并且其中所述神经网络被配置为进行以下中的一个或多个:
经历训练阶段和生成阶段,其中所述训练阶段包括学习用于产生所述输出谱图的多个参数,并且所述生成阶段包括通过从隐层采样来生成所述输出谱图;或者
借助Griffin-Lim重建生成所述输出谱图。
7.如权利要求1所述的方法,其中存在以下中的一个或多个:
所述输入音频数据包括一维输入音频信号;或者
所述输入谱图和所述输出谱图包括二维图像,所述二维图像包括时间轴和频率轴。
8.如权利要求1所述的方法,其中将所述输入谱图传输到所述神经网络包括使用均方误差损失函数作为训练准则来馈送所述输入谱图。
9.一种用于生成合成语音数据的系统,所述系统包括:
神经网络,所述神经网络被配置为生成二维音频谱图;以及
计算机可读存储介质,所述计算机可读存储介质存储指令,所述指令在由一个或多个处理器执行时致使所述一个或多个处理器:
从多个说话人接收包括语音发音的多个迭代的输入音频数据;
基于所述输入音频数据而生成输入谱图;
将所述输入谱图传输到所述神经网络;
从所述神经网络接收输出谱图;以及
基于所述输出谱图而生成包括所述语音发音的合成音频数据。
10.如权利要求9所述的系统,其中所述神经网络包括基于变分自动编码器模型的修改的神经网络架构,并且其中所述神经网络包括在编码器模块中使用的卷积层和在解码器模块中使用的反卷积层。
11.如权利要求9所述的系统,其中所述神经网络包括工作流程,并且所述工作流程包括:
训练阶段,其中所述神经网络用作自动编码器并被配置为学习用于生成所述输出谱图的多个参数;以及
生成阶段,其中所述神经网络生成所述输出谱图。
12.如权利要求11所述的系统,其中存在以下中的一个或多个:
在已经对所述神经网络进行训练并且已经将所述神经网络的编码层移除之后,所述神经网络经历所述生成阶段;
所述神经网络被配置为通过从隐层采样来生成所述输出谱图;或者
所述神经网络包括变分自动编码器架构,所述变分自动编码器架构包括跨步卷积、完全连接的卷积和跨步反卷积。
13.如权利要求9所述的系统,其中所述计算机可读存储介质借助Griffin-Lim重建生成合成音频数据,以恢复相位信息。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于福特全球技术公司,未经福特全球技术公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910237141.8/1.html,转载请声明来源钻瓜专利网。