[发明专利]一种在双变换域上的单通道语音分离方法有效
申请号: | 202010492043.1 | 申请日: | 2020-06-03 |
公开(公告)号: | CN111710343B | 公开(公告)日: | 2022-09-30 |
发明(设计)人: | 叶中付;穆罕默德·伊姆兰·侯赛因 | 申请(专利权)人: | 中国科学技术大学 |
主分类号: | G10L19/02 | 分类号: | G10L19/02;G10L21/0272 |
代理公司: | 北京科迪生专利代理有限责任公司 11251 | 代理人: | 顾炜 |
地址: | 230026 安*** | 国省代码: | 安徽;34 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 变换 通道 语音 分离 方法 | ||
1.一种在双变换域上的单通道语音分离方法,其特征在于,包括:在训练阶段,针对每一个说话人的语音,通过双树复数小波变换将其分解为一组子带信号,对每个子带信号进行短时傅里叶变换,获得时频谱,通过稀疏非负矩阵分解方法分别学习各个语音时频谱的幅度特征,得到相应的基矩阵;在检测阶段,针对多个说话人的混合语音,通过双树复数小波变换将其分解为一组子带信号,对每个子带信号进行短时傅里叶变换,获得时频谱,将时频谱的幅度在各个说话人语音基矩阵上分解,得到相应的权矩阵,利用每个语音的基矩阵和权矩阵,得到其时频谱幅度的初始分离结果,采用掩码得到时频谱的最终分离,最后通过短时傅里叶逆变换和双树复数小波逆变换获得时域语音信号的分离结果;
该方法具体包括:
步骤1、训练阶段
步骤11、对于多个说话人,构建每一个说话人语音的训练数据集;现在以两个说话人为例,第一个说话人语音以下简称第一个语音的训练数据集为{xtr(t)},第二个说话人语音以下简称第二个语音的训练数据集为{ytr(t)};
步骤12、用双树复数小波变换(DTCWT)将第一个语音训练数据集中的语音信号xtr(t)分解为一组子带信号即:
其中,DTCWT{}为双树复数小波变换算子,J,b,tl分别表示DTCWT的层数、子带数和树层数;
同样,用双树复数小波变换将第二个语音训练信号ytr(t)分解为一组子带信号即:
步骤13、对第一个语音的每一子带信号做短时傅里叶变换(STFT),得到时频域上的时频谱,即:
其中,STFT{}为短时傅里叶变换算子,tf,f分别为时间帧和频率点;
同样,对第二个语音的每一子带信号做短时傅里叶变换,得到时频域上的时频谱,即:
分别为的幅度,分别为的幅度;
步骤14、采用稀疏非负矩阵分解(SNMF)方法分别学习第一个语音时频谱的幅度特征,得到相应的基矩阵基矩阵通过如下的分解获得:
其中,分别是第一个语音子带信号的幅度权矩阵,μ为稀疏参数,|·|1表示1范数;
同样,采用稀疏非负矩阵分解方法分别学习第二个语音时频谱的幅度特征,得到相应的基矩阵基矩阵通过如下的分解获得:
其中,分别是第二个语音子带信号的幅度权矩阵;
进一步形成复合基矩阵:
步骤2、检测阶段
步骤21、混合语音信号为z(t)=x(t)+y(t),记录了两个说话人的混合语音,用双树复数小波变换将其分解为一组子带信号即:
其中,DTCWT{}为双树复数小波变换算子,J,b,tl分别表示DTCWT的层数、子带数和树层数;
步骤22,对混合语音的每一子带信号分别做短时傅里叶变换,得到时频域上的时频谱,即:
其中,STFT{}为短时傅里叶变换算子,tf,f分别为时间帧和频率点,分别为的幅度;
步骤23,把混合语音的每一子带信号的时频谱的幅度
在复合基矩阵上分别进行稀疏非负矩阵分解,获得相应的权矩阵,计算如下:
进一步表示为:
其中,分别是在复合基矩阵上分解得到的复合权矩阵,分别是在第一个语音基矩阵上分解得到的权矩阵,分别是在第二个语音基矩阵上分解得到的权矩阵,μ为稀疏参数,|·|1表示1范数;
步骤24,对混合语音的每一子带语音信号时频谱幅度进行初始分离;
首先,利用在第一个语音基矩阵分解得到的权矩阵分离出第一个语音信号时频谱幅度,如下式所示:
其次,利用在第二个语音基矩阵分解得到的权矩阵分离出第二个语音信号时频谱幅度,如下式所示:
步骤25,对混合语音中的每一个语音的每一子带语音信号时频谱进行分离;
首先,依据初始分离结果,计算第一个语音的每一子带语音信号时频谱的比例掩码:
对混合语音中的第一个语音的每一子带语音信号时频谱完成分离:
其中,为矩阵对应元素乘法算子;
其次,依据初始分离结果,计算第二个语音的每一子带语音信号时频谱的比例掩码:
对混合语音中的第二个语音的每一子带语音信号时频谱完成分离:
步骤26,获得分离后的时域的各个语音信号;
首先,对第一个语音的每个子带语音信号的时频谱估计做短时傅里叶逆变换(ISTFT),得到:
其中,ISTFT{}为短时傅里叶逆变换算子;
同样,对第二个语音的每个子带语音信号的时频谱估计做短时傅里叶逆变换,得到:
其次,对第一个语音的一组语音子信号估计做双树复数小波逆变换(IDTCWT),得到分离后的第一个语音:
其中,IDTCWT{}为双树复数小波逆变换算子;
同样,对第二个语音的一组语音子信号估计做双树复数小波逆变换,得到分离后的第二个语音:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学技术大学,未经中国科学技术大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010492043.1/1.html,转载请声明来源钻瓜专利网。