[发明专利]一种TTS的方法及系统在审

专利信息
申请号: 201910456474.X 申请日: 2019-05-29
公开(公告)号: CN109979429A 公开(公告)日: 2019-07-05
发明(设计)人: 司马华鹏;毛志强 申请(专利权)人: 南京硅基智能科技有限公司
主分类号: G10L13/04 分类号: G10L13/04;G10L13/02;G10L19/16
代理公司: 江苏舜点律师事务所 32319 代理人: 孙丹
地址: 210012 江苏省*** 国省代码: 江苏;32
权利要求书: 暂无信息 说明书: 暂无信息
摘要: 发明公开了一种TTS的方法,解决了合成音频拟人声性较差的问题,其技术方案要点是采用tacotron模型将文本信息预处理后进行编码,产生中间状态,利用前馈注意力机制将编码产生的中间状态结合到一起,前馈注意力机制可以捕捉长序列相依过程,使得输出音频更自然,且前馈注意力机制对长句子拟合比较好,没有尾部弱化现象,比其他的注意力机制要稳定。经解码器产生的梅尔频谱输入到声码器wavenet,经过wavenet网络或者并行wavenet网络的作用最终将梅尔频谱还原为音频输出。使用此模型来实现TTS可以使音频合成更像真人。
搜索关键词: 注意力机制 前馈 梅尔频谱 中间状态 预处理 技术方案要点 解码器 编码产生 合成音频 输出音频 文本信息 音频合成 音频输出 长序列 声码器 拟合 句子 还原 并行 弱化 网络 捕捉
【主权项】:
1.一种TTS的方法,其特征在于,包括:提取文本信息,对所述文本信息预处理后输入到tacotron模型;所述tacotron模型将预处理后的文本信息映射为梅尔频谱的序列并输出;所述序列输入到wavenet声码器;所述wavenet声码器对所述序列进行特征建模,并生成对应的音频;所述tacotron模型为频谱预测网络,包括编码器、解码器和注意力机制,所述注意力机制为前馈注意力机制。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京硅基智能科技有限公司,未经南京硅基智能科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201910456474.X/,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top