[发明专利]一种基于联合字典学习和稀疏表示的骨导语音增强方法在审
申请号: | 202010810196.6 | 申请日: | 2020-08-13 |
公开(公告)号: | CN111968627A | 公开(公告)日: | 2020-11-20 |
发明(设计)人: | 叶中付 | 申请(专利权)人: | 中国科学技术大学 |
主分类号: | G10L15/06 | 分类号: | G10L15/06;G10L21/02;G10L21/0224;G10L21/0316;G10L25/18;G10L25/27 |
代理公司: | 北京科迪生专利代理有限责任公司 11251 | 代理人: | 杨学明 |
地址: | 230026 安*** | 国省代码: | 安徽;34 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 联合 字典 学习 稀疏 表示 导语 增强 方法 | ||
1.一种基于联合字典学习和稀疏表示的骨导语音增强方法,其特征在于,包括:
步骤1、训练阶段
步骤11、在室内无噪环境下用骨导麦克风和空气传导麦克风(简称气导麦克风)组成的异型双麦克风阵列同步采集训练语音,构建骨导语音和气导语音的联合训练集其中xtr(t)和ytr(t)分别为骨导麦克风和气导麦克风同步采集的说话人语音;
步骤12、对骨导麦克风和气导麦克风同步采集的骨导语音和气导语音分别做短时傅里叶变换,得到时频域上的复数谱(简称时频谱),即:
Xtr(tf,f)=STFT{xtr(t)}
Ytr(tf,f)=STFT{ytr(t)}
其中,STFT{}为短时傅里叶变换算子,tf和f分别为时间帧和频率点,|Xtr(tf,f)|为Xtr(tf,f)的幅度,|Ytr(tf,f)|为Ytr(tf,f)的幅度;
步骤13、将|Xtr(tf,f)|和|Ytr(tf,f)|组织起来,形成联合矩阵通过稀疏约束学习算法学习出骨导语音和气导语音时频谱幅度的对应关系和稀疏特征,得到反映骨导语音和气导语音时频谱幅度特征关系的联合语音字典字典的学习过程如下:
其中,DX和DY分别是骨导语音xtr(t)和气导语音ytr(t)时频谱幅度的子字典;C是骨导语音和气导语音的联合稀疏表示系数,联合稀疏表示系数为矩阵形式,cg为C的第g列;q为稀疏约束,代表的是弗罗贝尼乌斯范数,||·||1代表的是1-范数;
步骤2、检测阶段
步骤21、对骨导语音x(t)做短时傅里叶变换,得到其时频域谱,即:
X(tf,f)=STFT{x(t)}
其中,STFT{}为短时傅里叶变换算子,tf和f分别为时间帧和频率点,|X(tf,f)|为X(tf,f)的幅度,Φ(tf,f)为X(tf,f)的相位,保留相位信息留待后面进一步使用;
步骤22,把骨导语音的时频谱幅度|X(tf,f)|在联合字典中的骨导语音子字典上进行投影,获得投影的骨导语音的稀疏表示系数,计算如下:
其中,E为|X(tf,f)|在骨导语音子字典DX上的候选稀疏表示系数,E*为通过上述式子从候选稀疏表示系数中选出的最优稀疏表示系数,稀疏表示系数为矩阵形式,eg分别为E的第g列;q为稀疏约束,代表的是弗罗贝尼乌斯范数,||·||1代表的是1-范数;
步骤23,对气导语音时频谱幅度的估计;
利用稀疏表示系数E*与联合语音字典的气导语音子字典DY一起,重建出气导语音时频谱幅度,如下式所示:
步骤24,对骨导语音时频谱幅度的增强;
首先,计算估计的气导语音时频谱幅度与骨导语音时频谱幅度的差,如下式所示:
其次,对于每一时频点(tf,f),分别将差Δ(tf,f)与骨导语音时频谱幅度α|X(tf,f)|进行比较,其中0<α<1,如果Δ(tf,f)≥α|X(tf,f)|,则骨导语音时频谱幅度的增强按下式给出:
如果Δ(tf,f)<α|X(tf,f)|,则骨导语音时频谱幅度的增强按下式给出:
当然也可以采用如下的简单方法来增强骨导语音时频谱幅度:
最后结合待检测骨导语音时频谱X(tf,f)的相位Φ(tf,f),计算增强后的骨导语音时频谱,如下式所示:
步骤25,对增强后的骨导语音时频谱进行短时傅里叶逆变换,获得增强后的骨导语音时域语音信号
其中ISTFT{}为短时傅里叶逆变换算子。
2.一种基于联合字典学习和稀疏表示的骨导语音增强方法,其特征在于,包括如下过程:
在训练阶段,采用骨导麦克风和气导麦克风组成的异型双麦克风阵列同步采集训练语音,构建骨导语音和气导语音的联合训练集;对骨导麦克风和气导麦克风同步采集的骨导语音和气导语音分别做短时傅里叶变换,得到其时频谱;充分利用骨导语音和气导语音时频谱幅度的对应关系以及语音的稀疏性,得到反映骨导语音和气导语音时频谱幅度对应特征的联合字典;
在检测阶段,对骨导语音做短时傅里叶变换,得到其时频域谱幅度和相位;把骨导语音的时频谱幅度在联合字典中的骨导语音子字典上进行投影,获得骨导语音的稀疏表示系数;用得到的稀疏表示系数与联合语音字典的气导语音子字典一起重建气导语音时频谱的幅度,并结合待检测骨导语音时频谱相位提供两种方法用于增强骨导语音时频谱,最后做短时傅里叶逆变换,得到增强后的骨导语音时域信号,提高了语音的清晰度。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学技术大学,未经中国科学技术大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010810196.6/1.html,转载请声明来源钻瓜专利网。