[发明专利]一种TTS的方法及系统在审
申请号: | 201910456474.X | 申请日: | 2019-05-29 |
公开(公告)号: | CN109979429A | 公开(公告)日: | 2019-07-05 |
发明(设计)人: | 司马华鹏;毛志强 | 申请(专利权)人: | 南京硅基智能科技有限公司 |
主分类号: | G10L13/04 | 分类号: | G10L13/04;G10L13/02;G10L19/16 |
代理公司: | 江苏舜点律师事务所 32319 | 代理人: | 孙丹 |
地址: | 210012 江苏省*** | 国省代码: | 江苏;32 |
权利要求书: | 暂无信息 | 说明书: | 暂无信息 |
摘要: | 本发明公开了一种TTS的方法,解决了合成音频拟人声性较差的问题,其技术方案要点是采用tacotron模型将文本信息预处理后进行编码,产生中间状态,利用前馈注意力机制将编码产生的中间状态结合到一起,前馈注意力机制可以捕捉长序列相依过程,使得输出音频更自然,且前馈注意力机制对长句子拟合比较好,没有尾部弱化现象,比其他的注意力机制要稳定。经解码器产生的梅尔频谱输入到声码器wavenet,经过wavenet网络或者并行wavenet网络的作用最终将梅尔频谱还原为音频输出。使用此模型来实现TTS可以使音频合成更像真人。 | ||
搜索关键词: | 注意力机制 前馈 梅尔频谱 中间状态 预处理 技术方案要点 解码器 编码产生 合成音频 输出音频 文本信息 音频合成 音频输出 长序列 声码器 拟合 句子 还原 并行 弱化 网络 捕捉 | ||
【主权项】:
1.一种TTS的方法,其特征在于,包括:提取文本信息,对所述文本信息预处理后输入到tacotron模型;所述tacotron模型将预处理后的文本信息映射为梅尔频谱的序列并输出;所述序列输入到wavenet声码器;所述wavenet声码器对所述序列进行特征建模,并生成对应的音频;所述tacotron模型为频谱预测网络,包括编码器、解码器和注意力机制,所述注意力机制为前馈注意力机制。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京硅基智能科技有限公司,未经南京硅基智能科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201910456474.X/,转载请声明来源钻瓜专利网。