[发明专利]个性化多声学模型的训练方法、语音合成方法及装置有效
申请号: | 201510684475.1 | 申请日: | 2015-10-20 |
公开(公告)号: | CN105185372A | 公开(公告)日: | 2015-12-23 |
发明(设计)人: | 李秀林 | 申请(专利权)人: | 百度在线网络技术(北京)有限公司 |
主分类号: | G10L13/02 | 分类号: | G10L13/02;G10L15/02;G10L15/183 |
代理公司: | 北京清亦华知识产权代理事务所(普通合伙) 11201 | 代理人: | 宋合成 |
地址: | 100085 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 个性化 声学 模型 训练 方法 语音 合成 装置 | ||
技术领域
本发明涉及语音技术领域,尤其涉及一种用于语音合成的个性化多声学模型的训练方法、语音合成方法及装置。
背景技术
语音合成,又称文语转换(TexttoSpeech)技术,是一种能够将文字信息转化为语音并进行朗读的技术。其涉及声学、语言学、数字信号处理、计算机科学等多个学科技术,是中文信息处理领域的一项前沿技术,解决的主要问题是如何将文字信息转化为可听的声音信息。
在语音合成系统中,将文本信息转换为声音信息的过程为:首先需要对输入的文本进行处理,包括预处理、分词、词性标注、多音字预测、韵律层级预测等,然后再通过声学模型,预测各个单元对应的声学特征,最后利用声学参数直接通过声码器合成声音,或者从录音语料库中挑选单元进行拼接,以生成与文本对应的声音信息。
其中,声学模型是整个语音合成系统的基础之一,声学模型通常是通过对大规模的语音数据进行训练而得到的。训练声学模型的过程为:首先,设计一定数量的录音文本语料,以满足音子覆盖、韵律覆盖等要求。其次,挑选合适的发音人,发音人据此录制语音数据。接下来,进行文本、拼音、韵律、单元边界的标注,标注好的数据用于模型训练、音库生成。由此可以看出,训练一个声学模型的过程比较复杂,周期比较长,并且训练过程中是基于固定发音人的语音数据训练的,因此,在通过该声学模型合成语音的过程中,所合成的语音的音色是固定的。
然而,在很多情况下希望用自己的声音、家人/朋友的声源,或者明星的声音进行语音合成,即用户希望语音合成系统所合成的语音具有个性的语音特点。为了满足个性化声音的需求,相关技术中获得个性化的声学模型的方式主要包括以下两种方式:
第一种方式,利用平行语料或者非平行语料,在声学参数层面,训练用户所需的个性化的声学模型。
第二种方式,采用模型间的映射,实现基准声学模型与个性化的声学模型之间的转换。具体地,采用HMM-GMM(HiddenMarkovModelsandGaussianMixtureModels,隐马尔可夫模型和高斯混合模型)建模,并进行决策树间的映射,以生成个性化的声学模型。
然而,在实现本发明的过程中,发明人发现相关技术存在至少以下问题:
针对第一种方式来说,(1)采用平行语料,在声学参数层面,训练个性化的声学模型,要求两个发音人按照同样的文本来生成原始语音,而这一点有时候是不太现实的。并且采用平行语料,语料规模的要求可能会比较高,所需的时间比较长,加工量比较大,难以快速获得个性化的声学模型。(2)采用非平行语音,在声学参数层面,训练个性化的声学模型。由于两个发音人按照不同的文本生成原始语音,且同一个音节,在不同的句子环境中,发音是明显有区别的,因此,如果把不同发音人的不同句子中的某个相同音子做映射,则容易造成所训练得到的个性化的声学模型不准确,从而导致合成的语音不够自然。
针对第二种方式来说,由于决策树是一种浅层模型,其描述能力有限,尤其在用户的语音数据量比较少时,所生成的个性化的声学模型的准确性不高,从而造成预测出的参数可能有不连贯的情况,进而使合成的语音出现跳变、音色不稳定等现象,造成语音的不自然。
发明内容
本发明旨在至少在一定程度上解决相关技术中的技术问题之一。
为此,本发明的一个目的在于提出一种用于语音合成的个性化多声学模型的训练方法,该方法在训练目标用户声学模型过程中,降低了对目标用户的语音数据的规模的要求,利用少量的用户语音数据就可训练出多个包含目标用户的语音特点的个性化声学模型,进而可满足个性化语音需求,提升了用户体验度。
本发明的第二个目的在于提出一种语音合成方法。
本发明的第三个目的在于提出一种语音合成方法。
本发明的第四个目的在于提出一种用于语音合成的个性化多声学模型的训练装置。
本发明的第五个目的在于提出一种用于语音合成装置。
本发明的第六个目的在于提出一种用于语音合成装置。
为达上述目的,本发明第一方面实施例提出了一种用于语音合成的个性化多声学模型的训练方法,包括:基于训练语音数据的第一声学特征数据和与所述训练语音数据对应的第一文本标注数据,训练基准声学模型;获取目标用户的语音数据;根据所述基准声学模型和所述语音数据,训练第一目标用户声学模型;根据所述第一目标用户声学模型和所述第一文本标注数据生成所述第一文本标注数据的第二声学特征数据;以及基于所述第一文本标注数据和所述第二声学特征数据,训练第二目标用户声学模型。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于百度在线网络技术(北京)有限公司,未经百度在线网络技术(北京)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510684475.1/2.html,转载请声明来源钻瓜专利网。
- 上一篇:声纹认证方法和装置
- 下一篇:一种柔性饰面砖施工方法