[发明专利]一种基于高斯混合模型的数字语音采样频率估计方法有效
申请号: | 201711112810.6 | 申请日: | 2017-11-13 |
公开(公告)号: | CN107919136B | 公开(公告)日: | 2021-07-09 |
发明(设计)人: | 吕勇 | 申请(专利权)人: | 河海大学 |
主分类号: | G10L25/27 | 分类号: | G10L25/27;G10L25/18;G10L25/24 |
代理公司: | 南京苏高专利商标事务所(普通合伙) 32204 | 代理人: | 李玉平 |
地址: | 210098 *** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 混合 模型 数字 语音 采样 频率 估计 方法 | ||
本发明公开一种基于高斯混合模型的数字语音采样频率估计方法,首先用高采样率数字语音训练生成一个GMM;然后对待估计的低采样率输入语音进行内插,提高其采样频率;最后用GMM对内插后的数字语音进行概率计算,并根据计算结果调整内插倍数,使GMM的输出概率达到最大值,从而得到输入语音的采样频率。本发明可以识别未知数字语音的采样频率,减小采样频率不匹配导致的系统性能下降。
技术领域
本发明属于语音处理领域,具体涉及到用一个由高采样率数字语音训练生成的高斯混合模型估计输入语音采样频率的语音处理方法。
背景技术
语音是人类交流信息的基本手段,也是运动过程中最方便、最有效的人机交互工具。数字语音具有精度高、易存储和传输的优点,但是不同的数字系统具有不同的计算性能、访问速度、存储空间、电池容量和应用场合,因而会采用不同的采样频率。如果输入语音的采样频率与数字系统的采样频率不匹配,就会导致语音处理系统的性能下降。因此,有必要对输入语音进行变换,使其采样频率与数字系统匹配,增强语音处理系统的实际应用能力。
如果输入语音的采样频率已知,只需要计算其采样频率与系统采样频率的比值,然后对输入语音进行内插或抽取,使其采样频率与系统一致即可。然而,在某些应用场合,输入语音的采样频率是未知的。比如,对网络上的音频进行监控,捕捉到数字语音信号片断,其采样频率可能就是未知的。
发明内容
发明目的:针对现有技术中存在的问题,本发明提供了一种基于高斯混合模型(GMM:Gaussian Mixture Model)的数字语音采样频率估计方法。在该方法中,首先用高采样率数字语音训练生成一个GMM;然后对待估计的低采样率输入语音进行内插,提高其采样频率;最后用GMM对内插后的数字语音进行概率计算,并根据计算结果调整内插倍数,使GMM的输出概率达到最大值,从而得到输入语音的采样频率。
本发明的具体步骤如下:
(1)对训练语音采用48kHz采样,并对其进行加窗、分帧,提取倒谱特征,用全部语音单元的特征向量训练生成一个高斯混合模型;
(2)对待估计的低采样率输入语音(是指采样频率低于48kHz的语音)进行内插,提高其采样频率;
(3)将内插后的数字语音输入GMM,计算其输出概率;
(4)对所有内插倍数,重复(2)和(3),并记录每次的输出概率;
(5)比较全部内插倍数对应的输出概率,最大输出概率对应的内插倍数即为训练语音采样频率与输入语音采样频率的比值。
附图说明
图1为基于高斯混合模型的数字语音采样频率估计系统的总体框架,主要包括模型训练、信号内插、内插倍数控制和频率估计模块。
具体实施方式
下面结合具体实施例,进一步阐明本发明,应理解这些实施例仅用于说明本发明而不用于限制本发明的范围,在阅读了本发明之后,本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。
如图1所示,基于高斯混合模型的数字语音采样频率估计方法主要包括模型训练、信号内插、内插倍数控制和频率估计模块。下面逐一详细说明附图中各主要模块的具体实施方案:
1、模型训练
首先对训练语音采用48kHz采样,加窗,分帧,并对每帧语音信号进行快速傅里叶变换,得到每帧信号的幅度谱;然后,对每帧信号的幅度谱进行Mel滤波,取对数,得到训练语音的倒谱特征参数;最后用全部语音单元的特征向量训练生成一个高斯混合模型:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于河海大学,未经河海大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711112810.6/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种云台和脚架结合为一体的三脚架
- 下一篇:气门杆密封件及密封结构