[发明专利]一种自动拓增语料的语音合成模型训练方法和系统有效
申请号: | 201910726585.8 | 申请日: | 2019-08-07 |
公开(公告)号: | CN110390928B | 公开(公告)日: | 2022-01-11 |
发明(设计)人: | 徐波 | 申请(专利权)人: | 广州多益网络股份有限公司;广东利为网络科技有限公司;多益网络有限公司 |
主分类号: | G10L13/02 | 分类号: | G10L13/02;G10L13/047;G10L13/08 |
代理公司: | 广州三环专利商标代理有限公司 44202 | 代理人: | 麦小婵;郝传鑫 |
地址: | 510530 广东省广州*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 自动 语料 语音 合成 模型 训练 方法 系统 | ||
本发明公开了一种自动拓增语料的语音合成模型训练方法和系统,收集文本‑语音平行语料,记为原始语料;将每个语音、文本样本按照语音停顿分割成若干语音、文本片段,汇集语音、文本片段记为片段语料;构建语音合成模型;从原始语料中随机选择m个样本,将文本、语音样本分别拼接构成新的语料样本,记为原始构造语料;从片段语料中随机选择n个样本,将文本、语音片段分别拼接构成新的语料样本为片段构造语料;使用原始构造语料和片段构造语料训练语音合成模型;使用原始语料、片段语料和原始构造语料继续训练,直至得到能够稳定合成语音的语音合成模型。本发明提高语音合成模型的泛化能力和稳健程度,使得能够合成各种状况下的文本。
技术领域
本发明涉及语音合成技术领域,特别是指一种自动拓增语料的语音合成模型训练方法和系统。
背景技术
语音合成(Text-To-Speech,TTS),是一种可以将纯文本转换成带韵律节奏的语音的技术,和语音识别技术(Automatic Speech Recognition,ASR)共同成为智能语音交互中不可或缺的模块。语音识别是机器的耳朵,让机器听得懂;语音合成是机器的嘴巴,是让机器说得出。无论是地图导航、智能音响、语音助手等生活助理,还是自媒体播报和电子读物等电子媒体,语音合成技术都在发挥着越来越大的作用。
语音合成主要方法有:拼接法,参数法和深度学习方法。具体技术实现的关系如图1所示。
1.拼接法
用语言学标注系统跑一遍输入文本,得到一串语言学标注。然后从中选取所需的基本单位拼接而成,单位最好在语言学和声学特征上都类似,单位可以是音节、音素等。为追求合成语音的连贯性,也常使用双音子从一个音素的中央到下一个音素的中央作为单位。在工程实现中,使用强制对齐工具将录制的语音和文本在音素级别进行对齐,将语音数据被分割成单独的语音段,创建语音单元数据库。然后提取每个单元的语言环境和声学特征,将该数据库进一步增强。在合成的时候,使用构建好的单元数据库和预测到的音韵特征,在语音空间内执行维特比搜索,以找到单元合成的最佳路径。
优点:如果确保了音库覆盖全则合成稳定性好,稳定合成能够表达文本意思的语音。可以使用较简单的实现方式,合成速度快,消耗资源较少。直接使用真实的语音片段,可以最大限度保留语音音质,拼接粒度较大的语音质量较高,听起来比较自然。
缺点:数据库要求太大,需要保存大量原音信息,成本高。若库里音素切分出错、语言学标注出错,则最后合成的语音发音也会出错。通常情况拼接语音的粒度较小,合成的语音衔接不自然,语音效果较差。
2.参数法
文本抽象成语音学特征,再根据统计模型学习出从语音学特征到其声学特征的对应关系,再从预测出的声学特征还原成声音波形的过程。或者说,根据统计模型来产生每时每刻的语音参数,包括基频、共振峰频率等,然后把这些参数转化为波形。主要分为3个模块:前端处理、建模和声码器。参数法的核心是个预测问题,即根据学习得的东西预测出声学特征,然后还原成波形,目前主流是用神经网络来预测。在训练阶段对时长模型和声学模型进行建模,在合成阶段先通过时长模型和声学模型预测声学特征参数,然后对声学特征参数做后处理,最后经过声码器恢复语音。
优点:合成的语音效果较好,能够从声学特征中捕捉到发音的特点,合成的语音流畅度和韵律较好。如果对大量优质文本语音平行语料进行学习,能够合成稳定的语音。
缺点:由于输出的是声码器合成的声音,而声码器忽略对细节的描述,有损失。需要结合音素特征和声学特征,变量多,系统调参困难。需要大量优质文本语音平行语料,获取大量语料成本高。
3.深度学习方法
用神经网络直接学习文本端到声学特征端的对应关系,省去语言学标注输入文本这一步。用神经网络直接学习语言学标注端到帧级别的音频波形端的对应关系,即省去学习已标注文本的语言学和声学特征的对应关系,以及声码器复现声音信号的步骤。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广州多益网络股份有限公司;广东利为网络科技有限公司;多益网络有限公司,未经广州多益网络股份有限公司;广东利为网络科技有限公司;多益网络有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910726585.8/2.html,转载请声明来源钻瓜专利网。