[发明专利]语音合成方法和装置有效
申请号: | 201711205386.X | 申请日: | 2017-11-27 |
公开(公告)号: | CN107945786B | 公开(公告)日: | 2021-05-25 |
发明(设计)人: | 周志平 | 申请(专利权)人: | 北京百度网讯科技有限公司 |
主分类号: | G10L13/08 | 分类号: | G10L13/08 |
代理公司: | 北京英赛嘉华知识产权代理有限责任公司 11204 | 代理人: | 王达佐;马晓亚 |
地址: | 100085 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 语音 合成 方法 装置 | ||
本申请实施例公开了语音合成方法和装置。该方法的一具体实施方式包括:确定待处理文本的音素序列;将该音素序列输入至预先训练的语音模型,得到与该音素序列中的每一个音素相对应的声学特征,其中,该语音模型用于表征音素序列中的每一个音素与声学特征的对应关系;对于该音素序列中的每一个音素,基于预置的、音素与语音波形单元的索引,确定与该音素相对应的至少一个语音波形单元,并基于该音素对应的声学特征和预设的代价函数,确定该至少一个语音波形单元中的目标语音波形单元;将该音素序列中的各个音素对应的目标语音波形单元进行合成,生成语音。该实施方式提高了语音合成效果。
技术领域
本申请实施例涉及计算机技术领域,具体涉及互联网技术领域,尤其涉及语音合成方法和装置。
背景技术
人工智能(Artificial Intelligence,AI)是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。人工智能是计算机科学的一个分支,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器,该领域的研究包括机器人、语言识别、图像识别、自然语言处理和专家系统等。语音合成是通过机械的、电子的方法产生人造语音的技术。文语转换技术(Text to Speech,TTS)技术隶属于语音合成,它是将计算机自己产生的、或外部输入的文字信息转变为可以听得懂的、流利的汉语口语输出的技术。
现有的语音合成方法通常采用基于隐马尔可夫模型(Hidden Markov Model,HMM)的语音模型输出文本对应的声学特征,之后通过声码器将参数转换为语音。
发明内容
本申请实施例提出了语音合成方法和装置。
第一方面,本申请实施例提供了一种语音合成方法,该方法包括:确定待处理文本的音素序列;将音素序列输入至预先训练的语音模型,得到与音素序列中的每一个音素相对应的声学特征,其中,语音模型用于表征音素序列中的每一个音素与声学特征的对应关系;对于音素序列中的每一个音素,基于预置的、音素与语音波形单元的索引,确定与该音素相对应的至少一个语音波形单元,并基于该音素对应的声学特征和预设的代价函数,确定至少一个语音波形单元中的目标语音波形单元;将音素序列中的各个音素对应的目标语音波形单元进行合成,生成语音。
在一些实施例中,语音模型为端对端神经网络,端对端神经网络包括第一神经网络、注意力模型和第二神经网络。
在一些实施例中,语音模型通过如下步骤训练得到:提取训练样本,其中,训练样本包括文本样本和与文本样本相对应的语音样本;确定文本样本的音素序列样本和构成语音样本的语音波形单元,从构成语音样本的语音波形单元中提取声学特征;利用机器学习方法,将音素序列样本作为输入,将所提取的声学特征作为输出,训练得到语音模型。
在一些实施例中,预置的、音素与语音波形单元的索引通过如下步骤得到:对于音素序列样本中的每一个音素,基于该音素对应的声学特征,确定该音素对应的语音波形单元;基于音素序列样本中的各个音素与语音波形单元的对应关系,建立音素与语音波形单元的索引。
在一些实施例中,代价函数包括目标代价函数和连接代价函数,目标代价函数用于表征语音波形单元与声学特征的匹配程度,连接代价函数用于表征相邻的语音波形单元的连续程度。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京百度网讯科技有限公司,未经北京百度网讯科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711205386.X/2.html,转载请声明来源钻瓜专利网。