[发明专利]声学模型的生成方法和装置及语音合成方法和装置在审
申请号: | 201510680816.8 | 申请日: | 2015-10-19 |
公开(公告)号: | CN105206258A | 公开(公告)日: | 2015-12-30 |
发明(设计)人: | 李秀林 | 申请(专利权)人: | 百度在线网络技术(北京)有限公司 |
主分类号: | G10L13/02 | 分类号: | G10L13/02;G10L13/04 |
代理公司: | 北京清亦华知识产权代理事务所(普通合伙) 11201 | 代理人: | 宋合成 |
地址: | 100085 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 声学 模型 生成 方法 装置 语音 合成 | ||
技术领域
本发明涉及语音合成技术领域,尤其涉及一种声学模型的生成方法和装置及语音合成方法和装置。
背景技术
语音合成,又称文语转换(TexttoSpeech)技术,能将任意文字信息实时转化为标准流畅的语音朗读出来,相当于给机器装上了人工嘴巴。在语音合成时,首先需要对输入的文本进行处理,包括预处理、分词、词性标注、注音、韵律层级预测等,然后通过声学模型生成声学参数,最后利用声学参数直接通过声码器合成声音或者从录音语料库中挑选单元进行拼接。
现有技术中,声学模型的生成流程耗费时间长,也不能满足个性化需求。
发明内容
本发明旨在至少在一定程度上解决相关技术中的技术问题之一。
为此,本发明的一个目的在于提出一种声学模型的生成方法,该方法可以提高生成声学模型的速度,并且可以满足用户的个性化需求。
本发明的另一个目的在于提出一种声学模型的生成装置。
本发明的另一个目的在于提出一种语音合成方法。
本发明的另一个目的在于提出一种语音合成装置。
为达到上述目的,本发明第一方面实施例提出的声学模型的生成方法,包括:获取个性化数据,所述个性化数据是根据个性化语音数据和对应的个性化文本数据进行处理后得到的;获取预先生成的基准声学模型,所述基准声学模型是根据已有的大规模样本生成的;根据所述个性化数据和所述基准声学模型进行自适应模型训练,生成个性化声学模型。
本发明第一方面实施例提出的声学模型的生成方法,通过根据个性化数据和基准声学模型进行自适应模型训练,可以降低所需的个性化数据量,从而降低样本采集所需的时间,降低模型生成所需周期,实现模型的快速生成,通过获取个性化数据可以满足个性化需求。
为达到上述目的,本发明第二方面实施例提出的声学模型的生成装置,包括:第一获取模块,用于获取个性化数据,所述个性化数据是根据个性化语音数据和对应的个性化文本数据进行处理后得到的;第二获取模块,用于获取预先生成的基准声学模型,所述基准声学模型是根据已有的大规模样本生成的;生成模块,用于根据所述个性化数据和所述基准声学模型进行自适应模型训练,生成个性化声学模型。
本发明第二方面实施例提出的声学模型的生成装置,通过根据个性化数据和基准声学模型进行自适应模型训练,可以降低所需的个性化数据量,从而降低样本采集所需的时间,降低模型生成所需周期,实现模型的快速生成,通过获取个性化数据可以满足个性化需求。
为达到上述目的,本发明第三方面实施例提出的语音合成方法,包括:对输入文本进行处理,得到处理后的文本;获取预先生成的个性化声学模型;根据所述个性化声学模型和处理后的文本进行声学参数生成;根据生成的声学参数进行语音合成,得到个性化合成语音;其中,所述个性化声学模型采用如本发明第一方面实施例所述的方法生成。
本发明第三方面实施例提出的语音合成方法,通过采用个性化声学模型,可以生成个性化合成语音,以满足用户个性化语音需求。
为达到上述目的,本发明第四方面实施例提出的语音合成装置,包括:处理模块,用于对输入文本进行处理,得到处理后的文本;获取模块,用于获取预先生成的个性化声学模型;生成模块,用于根据所述个性化声学模型和处理后的文本进行声学参数生成;合成模块,用于根据生成的声学参数进行语音合成,得到个性化合成语音;其中,所述个性化声学模型采用如本发明第一方面实施例所述的方法生成。
本发明第四方面实施例提出的语音合成装置,通过采用个性化声学模型,可以生成个性化合成语音,以满足用户个性化语音需求。
本发明附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1是本发明一实施例提出的声学模型的生成方法的流程示意图;
图2是本发明另一实施例提出的声学模型的生成方法的流程示意图;
图3是本发明另一实施例提出的声学模型的生成方法的流程示意图;
图4是本发明实施例中说话人模型的训练过程和识别过程的示意图;
图5是本发明另一实施例提出的语音合成方法的流程示意图;
图6是本发明另一实施例提出的语音合成方法的流程示意图;
图7是本发明另一实施例提出的声学模型的生成装置的结构示意图;
图8是本发明另一实施例提出的声学模型的生成装置的结构示意图;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于百度在线网络技术(北京)有限公司,未经百度在线网络技术(北京)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510680816.8/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种社区矫正声纹识别系统
- 下一篇:鼓锤架