[发明专利]一种语音转换方法有效
申请号: | 201710971228.9 | 申请日: | 2017-10-18 |
公开(公告)号: | CN107785030B | 公开(公告)日: | 2021-04-30 |
发明(设计)人: | 沈博;刘春华;蒋克文;童利航;余帅东;简志华 | 申请(专利权)人: | 杭州电子科技大学 |
主分类号: | G10L13/02 | 分类号: | G10L13/02;G10L13/04;G10L13/047;G10L25/24;G10L25/21;G06K9/62 |
代理公司: | 浙江千克知识产权代理有限公司 33246 | 代理人: | 周希良 |
地址: | 310018 浙江省杭州市杭*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 语音 转换 方法 | ||
本发明提供一种语音转换方法,包括下列步骤:S1:提取语音资料中音源与目标音的语音特征;S2:对音源与目标音的语音信息进行动态时间规整;S3:运用高斯混合模型与聚类算法训练规整后的语音;S4:提取音源的语音信息并将其用训练后所得的数据进行转换,合成为目标音。本发明提供了一种精确高效的实现将音源的声音变换为目标音的声音的方法,可以根据源和目标说话人的说话的数学特点,通过对二者语音进行建模并进行算法运算,将源说话人的语音准确转化为目标说话人的语音。
技术领域
本发明涉及计算算法领域,尤其涉及一种语音转换方法。
背景技术
目前,经过国内外多年的研究及应用,在语音转换这一领域中,公认的转换模型是GMM即高斯混合模型,且在对其聚类均值初始化时选择随机初始化,在训练计算时采用全矩阵计算,这一聚类算法精准度较高。
在聚类均值初始化的过程中,采用随机初始化的方式,这使得计算的随机性太高,这在无形中延长了计算时间,并加大了在有限次迭代条件下出错误的概率。另一方面,由于初始化后的协方差矩阵是一个完全矩阵,所以在计算先验概率的步骤中,最为庞杂繁琐的就是对协方差矩阵的运算,这里扩大了许多运算量。
如专利文件CN107068165A所公开的一种语音转换方法,公开了一种语音转换方法,该系统首先通过对平行语料库进行自适应高斯混合模型和双线性频率弯折加幅度调节的训练,得到语音转换所需的转换函数,然后使用该转换函数进行高质量的语音转换。本发明针对语音特征参数空间分布状况与高斯混合模型的相关关系,使用自适应高斯混合模型替代传统高斯混合模型,解决了高斯混合模型在进行语音特征参数分类时不精确的问题,并将自适应高斯混合模型和双线性频率弯折加幅度调节相结合,构建了一种语音转换系统。但所述专利文件中,并未预先通过算法选取搜索空间中更有效的初始值;也未在计算先验概率时,通过对矩阵进行处理以提高运算速度。
发明内容
本发明的目的是克服现有技术中的不足,提供一种精确高效的语音转换方法。
本发明的目的通过下述技术方案予以实现。本发明的一种语音转换方法,包括下列步骤:
S1:提取音源与目标音的语音特征;
S2:对音源与目标音的语音信息进行动态时间规整;
S3:运用高斯混合模型与聚类算法训练规整后的语音;
S4:提取音源的语音信息并用训练后所得的数据进行转换,合成为目标音。
优选的,在步骤S1中,所述音源与目标音的语音特征从语音资料中提取。
所述的步骤S1具体按如下步骤进行:
S1.1:使用STRAIGHT模型分别从预存的语音资料中提取基频信息f0,非周期分量ap,平滑功率谱参数sp;
S1.2:使用SPTK工具降维,将平滑功率谱参数sp转化为广义梅尔倒谱参数mgc,得到音源语音矩阵X与目标音语音矩阵Y。
所述的步骤S1.1中,预存音源与目标音数句、内容相同的语音资料。
步骤S2具体按如下步骤实现:
运用动态时间算法将长度不相同的两矩阵变为等长的x,y,并将两矩阵联合为一个矩阵z。
所述的步骤S3由以下步骤实现:
S3.1:通过矩阵z对高斯混合模型进行初始化;
S3.2:运用高斯混合模型的期望最大化算法对初始化后的高斯模型进行计算。
所述的步骤S3.1由以下步骤实现:
S3.1.1:设定矩阵维度M,聚类模型个数k,运用K均值算法算出聚类均值;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州电子科技大学,未经杭州电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710971228.9/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种降低转炉熔剂单耗的冶炼方法
- 下一篇:一种90级超高强度帘线钢的冶炼方法