[发明专利]一种基于多帧频谱和非负矩阵分解的语音增强方法与装置在审
申请号: | 201710366412.0 | 申请日: | 2017-05-23 |
公开(公告)号: | CN107248414A | 公开(公告)日: | 2017-10-13 |
发明(设计)人: | 何亮;施梦楠;徐灿;刘加 | 申请(专利权)人: | 清华大学 |
主分类号: | G10L21/0216 | 分类号: | G10L21/0216;G10L21/0232;G10L25/27;G10L25/18 |
代理公司: | 北京清亦华知识产权代理事务所(普通合伙)11201 | 代理人: | 廖元秋 |
地址: | 100084*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明提出的一种基于多帧频谱和非负矩阵分解的语音增强方法与装置,属于语音增强和非负矩阵分解领域。该方法对纯净语音、噪声、带噪语音预处理,得到短时频谱,并转换为多帧频谱;将噪声和纯净语音的多帧频谱分别转化为对应的基矩阵和系数矩阵的乘积,求出噪声的多帧频谱的基矩阵和纯净语音多帧频谱的基矩阵;将两个基矩阵合成带噪语音多帧频谱的基矩阵,并将带噪语音的多帧频谱转化为基矩阵和系数矩阵的乘积,获得带噪语音多帧频谱的系数矩阵,进而得到噪声的和增强语音的多帧频谱的初始估计;通过维纳滤波方法,获得增强语音的多帧频谱,变换为时域信号,获得最终增强语音。本发明保存了语音的特有信息,更好地还原语音,提升语音增强的效果。 | ||
搜索关键词: | 一种 基于 帧频 矩阵 分解 语音 增强 方法 装置 | ||
【主权项】:
一种基于多帧频谱和非负矩阵分解的语音增强方法,其特征在于,分为构建多帧频谱阶段、训练基矩阵阶段和语音增强阶段共三个阶段;包括以下步骤:1)构建多帧频谱阶段;具体包括以下步骤:1‑1)对语音进行预处理,得到语音的短时频谱;预处理包括对语音进行零均值化和预加重;首先进行零均值化,为整段语音减去其均值;然后进行预加重:对零均值化后的语音进行高通滤波,并对该语音进行分帧,然后进行快速傅里叶变换;预处理完成后得到语音的短时频谱;1‑2)根据步骤1‑1)得到的语音的短时频谱,按照包结构,将短时频谱转化为对应的多帧频谱;2)训练基矩阵阶段;具体包括以下步骤:2‑1)提取噪声和纯净语音,重复步骤1),分别获取噪声的多帧频谱和纯净语音的多帧频谱;2‑2)通过非负矩阵分解NMF算法,将步骤2‑1)得到的噪声的多帧频谱和纯净语音的多帧频谱分别转化为各自对应的基矩阵和系数矩阵的乘积;2‑3)通过最小广义KL散度代价函数,分别求出噪声的多帧频谱的基矩阵和纯净语音的多帧频谱的基矩阵;3)语音增强阶段;具体包括以下步骤:3‑1)提取带噪语音,重复步骤1),获取带噪语音的多帧频谱;3‑2)利用步骤2‑3)得到的噪声的多帧频谱的基矩阵和纯净语音的多帧频谱的基矩阵,合成带噪语音多帧频谱的基矩阵;3‑3)通过NMF算法,将步骤3‑1)得到的带噪语音的多帧频谱转化为相应的基矩阵和系数矩阵的乘积;3‑4)利用步骤3‑3)得到的带噪语音的多帧频谱的基矩阵和系数矩阵的乘积,通过最小广义KL散度代价函数,并结合步骤3‑2)得到的的带噪语音多帧频谱的基矩阵,获得带噪语音的多帧频谱的系数矩阵;3‑5)通过步骤3‑4)得到的带噪语音多帧频谱的系数矩阵和步骤2‑3)得到的噪声的多帧频谱的基矩阵和纯净语音的的多帧频谱的基矩阵,分别获得噪声的多帧频谱和纯净语音的多帧频谱的初始估计;3‑6)利用步骤3‑5)得到的噪声的多帧频谱和纯净语音的多帧频谱的初始估计,通过维纳滤波方法,获得增强语音的多帧频谱;3‑7)将步骤3‑6)得到的增强语音的多帧频谱通过解除包结构变换为增强语音的短时频谱,在解除包结构的过程中,对多个包中所包含的相同帧进行求和平均;3‑8)将步骤3‑7)得到的的纯净语音的短时频谱变换为时域信号,获得最终的增强语音。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于清华大学,未经清华大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201710366412.0/,转载请声明来源钻瓜专利网。