[发明专利]神经网络生成建模以变换语音发音和增强训练数据在审
申请号: | 201910237141.8 | 申请日: | 2019-03-27 |
公开(公告)号: | CN110335584A | 公开(公告)日: | 2019-10-15 |
发明(设计)人: | 普拉韦恩·纳拉亚南;丽莎·斯卡里亚;弗朗索瓦·沙雷特;阿什利·伊丽莎白·米克斯;瑞恩·伯克 | 申请(专利权)人: | 福特全球技术公司 |
主分类号: | G10L13/02 | 分类号: | G10L13/02;G10L13/04;G06N3/04;G06N3/08 |
代理公司: | 北京连和连知识产权代理有限公司 11278 | 代理人: | 刘小峰 |
地址: | 美国密歇根*** | 国省代码: | 美国;US |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本公开提供了“神经网络生成建模以变换语音发音和增强训练数据”。公开了用于使用深度生成模型进行语音变换和生成合成语音的系统、方法和装置。本公开的方法包括从多个说话人接收包括语音发音的多个迭代的输入音频数据。所述方法包括基于所述输入音频数据而生成输入谱图并将所述输入谱图传输到被配置为生成输出谱图的神经网络。所述方法包括从所述神经网络接收所述输出谱图并基于所述输出谱图而生成包括所述语音发音的合成音频数据。 | ||
搜索关键词: | 神经网络 语音发音 输出谱 输入音频 训练数据 输入谱 建模 合成音频数据 方法和装置 生成模型 语音变换 迭代 语音 合成 传输 配置 | ||
【主权项】:
1.一种用于生成合成语音数据的方法,所述方法包括:从多个说话人接收包括语音发音的多个迭代的输入音频数据;基于所述输入音频数据而生成输入谱图;将所述输入谱图传输到被配置为生成输出谱图的神经网络;从所述神经网络接收所述输出谱图;以及基于所述输出谱图而生成包括所述语音发音的合成音频数据。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于福特全球技术公司,未经福特全球技术公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201910237141.8/,转载请声明来源钻瓜专利网。