[发明专利]一种非平行文本条件下的语音转换方法有效
申请号: | 201010520107.0 | 申请日: | 2010-10-27 |
公开(公告)号: | CN102063899A | 公开(公告)日: | 2011-05-18 |
发明(设计)人: | 李燕萍;张玲华 | 申请(专利权)人: | 南京邮电大学 |
主分类号: | G10L13/08 | 分类号: | G10L13/08;G10L15/06 |
代理公司: | 南京经纬专利商标代理有限公司 32200 | 代理人: | 许方 |
地址: | 210003 *** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 平行 文本 条件下 语音 转换 方法 | ||
技术领域:
本发明涉及一种语音转换技术,尤其是一种非平行文本条件下的语音转换方法,属于语音信号处理技术领域。
背景技术:
语音转换是语音信号处理领域近年来新兴的研究分支,是在说话人识别和语音合成的研究基础上进行的,同时也是这两个分支内涵的丰富和延拓。
语音转换的目标是改变源说话人语音中的个性特征信息,使之具有目标说话人的个性特征,从而使转换后的语音听起来就像是目标说话人的声音,而其中的语义信息保持不变。
语音转换的关键问题在于说话人个性特征的提取以及转换模型的建立,经过近二十年的发展,涌现出大量的研究成果,但这些方法大多要求训练语音是平行文本,即源说话人和目标说话人的语音在语音内容,语音时长方面都必须相同,因此在训练之前一般需要先采用动态时间规整算法对源说话人和目标说话人的语音进行强制对齐,这样必然会引入失真;并且从实际应用的角度考虑,要求大量的平行训练文本很不方便,甚至不可满足,例如在跨语种的语音转换中,源和目标说话人的语音存在语种的不同,根本不可能获得平行文本。无论从方便高效的角度分析,还是从经济实用方面考虑,非平行文本条件下语音转换方法的研究都具有极大的实际意义和应用价值。
目前非平行文本条件下的语音转换算法主要有两种,基于语音聚类的方法和基于参数自适应的方法。基于语音聚类的方法,是通过对语音帧之间距离的度量或者在音素信息的指导下选择相对应的语音单元进行转换,其本质是一定条件下将非平行文本转化为平行文本进行处理。这类方法原理简单,但需要对语音文本内容进行预提取,预提取的结果会直接影响语音的转换质量;(1.Meng Zhang, Jiaohua Tao, Jani Nurminen. Phoneme cluster based state mapping for text-independent voice conversion. ICASSP, 2009: 4281-4284. 2. Helenca Duxans, Daniel Erro, Javier Perez. Voice conversion of non-aligned data using unit selection. TC-Star Workshop on Speech to Speech Translation, 2006: 237-242.)基于参数自适应的方法,是采用语音识别中的说话人归一化或自适应方法对转换模型的参数进行处理,其本质是使得预先建立的模型向基于目标说话人的模型进行转化。这类方法能够合理利用预存储的说话人信息,但自适应过程会引起频谱的平滑,导致转换语音中的说话人个性信息不强。(1. Yamato Ohtani. Techniques for improving voice conversion based on eigenvoices. Doctoral Thesis, Nara Institute of Science and Technology, March 31, 2010. 2. D. Sundermann, H.Ney, H. Hoge. VTLN-based cross-language voice conversion. ASRU 2003: 676-681.)。
发明内容
本发明所要解决的技术问题是提供一种结合汉语语言结构特点和说话人自适应思想的非平行文本条件下的语音转换方法,达到增强转换语音中的说话人个性特征的同时提高转换语音的听觉质量。
本发明为实现上述发明目的采用如下技术方案:
一种非平行文本条件下的语音转换方法,包括训练阶段和转换阶段,其中所述训练阶段包括如下步骤:
步骤A,语音信号预处理步骤:分别对输入语音信号依次进行预加重、分帧和加窗处理,所述输入语音信号分别包括目标说话人、源说话人、参考目标说话人的语音信号;
步骤B,元音帧提取步骤:根据频域能量分布特征,分别判定经步骤A预处理后的目标说话人、源说话人、参考目标说话人的语音信号中元音的位置,分别提取目标说话人、源说话人、参考目标说话人的语音信号中的元音帧;
步骤C,元音帧的音素分类,对步骤B提取到的目标说话人、源说话人、参考目标说话人的元音帧,根据汉语元音映射表分别进行音素分类;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京邮电大学,未经南京邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201010520107.0/2.html,转载请声明来源钻瓜专利网。