[发明专利]一种基于隐高斯随机场的语音转换系统在审
申请号: | 201410313485.X | 申请日: | 2014-07-02 |
公开(公告)号: | CN104091592A | 公开(公告)日: | 2014-10-08 |
发明(设计)人: | 鲍静益;徐宁 | 申请(专利权)人: | 常州工学院 |
主分类号: | G10L15/02 | 分类号: | G10L15/02;G10L15/14;G10L25/12;G10L25/93 |
代理公司: | 南京知识律师事务所 32207 | 代理人: | 高桂珍 |
地址: | 213022 *** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 隐高斯 随机 语音 转换 系统 | ||
技术领域
本发明涉及一种语音信号处理系统,即通过改变一个说话人A的声音特征,使其听起来仿佛是另一个说话人B的声音,该技术被称为语音转换。
背景技术
语音转换技术作为语音信号处理领域的一个重要分支,其目的在于改变任意一个说话人的话音个性特征,使其听起来像另一个指定的目标人的声音。该技术有着重要的应用价值,例如用于文语转换器末端,从而使机器产生惟妙惟肖的各种语音,又如用于电影娱乐配音,涉密安全等领域。目前较为成熟的语音转换方法,一般是基于高斯混合模型构建起来的。该类方法能从概率分布的角度对语音数据进行建模和分析,具有(1)充分利用数据的统计特性,(2)预测结果符合严格的数学理论等优势。然而,由于语音参数一般为高维矢量,因此在数据量相对匮乏条件下,传统语音转换方法易出现“维数灾难”问题,从而导致系统产生不稳定因素。
发明内容
为了克服以上不足,本发明提供了一种对数据量匮乏因素较为鲁棒的语音转换方案,其本质是实现可靠的高维矢量的映射和转换。本发明的核心技术点围绕语音参数转换映射模块展开,通过构建一种新型的具有隐层结构的高斯随机场模型,一方面用来对高维矢量进行降维,另一方面,实现特征参数的非线性映射,达到语音转换的目的。
为了达到以上目的,本发明的主要技术内容如下:
一种基于隐高斯随机场的语音转换系统,包含语音分析模块、语音合成模块、语音参数预处理模块、语音参数转换映射模块;
所述语音分析模块与语音合成模块,用于对原始语音信号进行分解与重组,分解与重组所涉及到的中间参数,被称为特征参数;
所述语音参数预处理模块,用于对说话人A和B的特征参数进行整理和筛选,得到在时间上同步的特征参数集合;
所述语音参数转换映射模块,用于捕捉A、B两个特征参数集合之间的映射关系,从而得到映射规律。
上述语音分析模块与语音合成模块分别由如下操作步骤组成:
语音分析:
(a1)对语音信号进行固定时长的分帧,用互相关法对基音频率进行估计;
(a2)在浊音信号部分设置一个最大浊音频率分量,用来划分谐波成分和随机成分的主能量区域;再利用最小二乘算法估计得到离散的谐波幅度值和相位值;
(a3)在清音信号部分,利用经典的线性预测分析法对其进行分析,从而得到线性预测系数。
语音合成:
(b1)将浊音信号的离散谐波幅度和相位值用作正弦信号的幅度值和相位值,并进行叠加;运用内插技术和相位补偿技术使得重构信号在时域波形上不产生失真;
(b2)将清音信号的白噪声信号通过一个全极点滤波器,可得到近似重构信号;
(b3)将浊音信号和清音信号进行叠加,可得到重构的语音信号。
上述语音参数预处理模块包含两个子模块,分别为特征参数提取和特征参数对齐,其操作步骤分别如下,
特征参数提取:
(c1)对(a2)中得到的离散谐波幅度求取平方;
(c2)根据功率谱密度函数和自相关函数的一一对应关系,得到关于线性预测系数的托普里茨矩阵方程,求解该方程;
(c3)将线性预测系数转换为线性谱频率系数,该系数即为特征参数。
特征参数对齐:
(d1)对于说话人A和B的两个不等长的特征参数序列,利用动态时间规整算法将其中一者的时间轴非线性的映射到另一者的时间轴上,实现一一对应的匹配关系;
(d2)在参数集合的对齐的过程中,通过迭代优化一个预设的累积失真函数,并限制搜索区域,最终获得时间匹配函数。
上述语音参数转换映射模块以隐高斯随机场为主要框架,包含两种阶段,训练阶段和转换阶段,具体操作步骤如下,
训练阶段:
(e1)构建包含隐层结构的高斯随机场模型,设观测向量(特征参数)为D维向量,在给定K维隐层向量的条件下(K<D),观测向量组成的序列是一个高斯随机过程,该随机过程的性状由均值参数序列和方差参数序列唯一确定;
(e2)用马尔科夫链蒙特卡洛方法来近似估计隐层向量和模型参数(即均值参数和方差参数)的联合后验概率密度函数;
(e3)对联合概率密度函数进行边缘化,分别得到对隐层向量概率分布和模型参数的概率分布的估计,至此,隐高斯随机场模型结构被确定;
转换阶段:
(f1)在给定输入观测向量集合的条件下,根据训练好的隐高斯随机场模型结构,求取隐层向量概率分布函数;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于常州工学院,未经常州工学院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410313485.X/2.html,转载请声明来源钻瓜专利网。
- 上一篇:个人肺活量计
- 下一篇:弓弦乐器弹奏指导装置及其控制方法