[发明专利]基于谐波模型和声源-声道特征分解的语音分析合成方法有效
申请号: | 201580080885.3 | 申请日: | 2015-12-10 |
公开(公告)号: | CN107851433B | 公开(公告)日: | 2021-06-29 |
发明(设计)人: | 华侃如 | 申请(专利权)人: | 华侃如 |
主分类号: | G10L13/02 | 分类号: | G10L13/02;G10L25/48;G10L25/75;G10L13/04 |
代理公司: | 北京大成律师事务所 11352 | 代理人: | 李佳铭;沈汶波 |
地址: | 201203 上海市*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 谐波 模型 声源 声道 特征 分解 语音 分析 合成 方法 | ||
本发明提出了一种语音分析合成方法以及该方法的一种简化形式。本发明所述方法基于谐波模型,在分析阶段将谐波模型的参数分解为声源特征和声道特征,并于合成阶段重新组合声源和声道特征,生成谐波模型参数。
技术领域
本发明涉及语音合成领域,具体涉及语音分析合成和语音编码子领域。
背景技术
语音分析合成技术是将语音信号进行分析,获得一种中间的表达形式,再根据分析结果重新合成的技术。通过修改由分析获得的中间数据,可以改变语音的特性,例如基频、时长、音色等。
在语音合成和音频处理应用中,语音分析合成系统是重要的组成部分。为了能够灵活地修改语音参数,此类应用往往需要一种参数性(parametric)的高质量语音分析合成方法。
常用的语音分析合成方法基于源-滤波器模型(source-filter model)。该模型将人的发音系统建模为周期脉冲(pulse train)信号和一系列级联滤波器,包括声门波(glottal flow)滤波器、声道(vocal tract)滤波器和唇辐射(lip radiation)滤波器。周期脉冲信号是一系列以基频周期间隔的单位脉冲信号。
源-滤波器模型的一种简化形式在语音分析合成技术中被广泛采用。该简化形式将声门波滤波器和唇辐射滤波器合并纳入声道滤波器。基于该简化模型设计的语音分析合成方法包括PSOLA(基音同步叠加)、STRAIGHT、MLSA(梅尔对数频谱逼近滤波器)等。
当语音基频被修改时,该源-滤波器模型的简化形式暴露出一定缺陷。声门波是通过声门的气体的流动速度,反映了声门的张合程度。因为基频决定了声门的张合频率,所以声门波滤波器的单位脉冲响应的时长应等于基频周期,在不同基频下声门波的形状大致不变,但其周期长度随基频改变。然而源-滤波器模型的简化形式中,声门波滤波器被合并到声道滤波器中,故声门波滤波器的频率响应被假设为独立于基频。该假设与发声原理不符,因此在对基频参数进行修改后,基于该简化模型的语音分析合成方法往往不能产生自然的语音。
为了克服上述缺点,近年有若干新语音分析合成技术被提出,例如SVLN(Degottex,Gilles,et al.Mixed source model and its adapted vocal tract filterestimate for voice transformation and synthesis.Speech Communication 55.2(2013):278-294.)和GSS(Cabral,Joao P.,et al.Glottal spectral separation forspeech synthesis.Selected Topics in Signal Processing,IEEE Journal of 8.2(2014):195-208.)方法。这些方法对声门波和声道分别进行建模。由于唇辐射滤波器的特性接近微分器(differentiator),该滤波器被并入声门波,形成声门波导数。声门波导数则由Liljencrants-Fant声源模型表示。在分析过程中,首先计算声源模型的参数,然后将语音的幅度频谱除以声源模型的幅度响应,并进行频谱包络预测(spectral envelopeestimation),获得声道的幅度响应。最后基于最小相位假设,根据声道的幅度响应计算声道的频率响应。合成过程相当于逆向进行分析过程,这里不作赘述。
SVLN和GSS方法在一定程度上使基频经过修改的语音听感更加自然,但是该方法同时具有一些缺陷。首先,合成语音的质量容易受声源参数的准确度影响,当声源参数计算不准确时,合成语音的听感会和输入语音有差异。尤其是当输入语音的录制环境和设备不够理想时,声源参数的计算往往会出现较大误差,使得该方法产生的输出变得不够平稳。其次,Liljencrants-Fant声源模型产生的声门波信号和实际的声门波信号有一定差异,因此该方法无法准确还原输入语音,且使用该方法合成的语音听感上稍为尖锐。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华侃如,未经华侃如许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201580080885.3/2.html,转载请声明来源钻瓜专利网。