[发明专利]基于振幅和相位信息的多目标学习的远场语音识别方法在审
申请号: | 201910134661.6 | 申请日: | 2019-02-23 |
公开(公告)号: | CN109767760A | 公开(公告)日: | 2019-05-17 |
发明(设计)人: | 党建武;崔凌赫;王龙标;李东播 | 申请(专利权)人: | 天津大学 |
主分类号: | G10L15/16 | 分类号: | G10L15/16;G10L15/01;G10L21/0232;G10L21/0264 |
代理公司: | 天津市北洋有限责任专利代理事务所 12201 | 代理人: | 程小艳 |
地址: | 300072*** | 国省代码: | 天津;12 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 语音识别 相位特征 多目标 语音 神经网络 相位信息 振幅特征 远场 输入数据准备 评测 声道信息 输出增强 群延迟 相位域 源分离 准确率 构建 混响 学习 | ||
1.基于振幅和相位信息的多目标学习的远场语音识别方法,其特征在于,包括以下步骤:
1)输入数据准备:分别对训练集、开发集和验证集中的数据进行数据准备;
2)特征提取:
(1)基于振幅信息的特征提取:通过分帧、加窗,并对每一个短时分析窗,通过快速傅里叶变换将信号由时域转换到频域并且得到对应的频谱,然后使用Mel滤波器进行频率的过滤并且以此来模拟人类的感知系统;
(2)基于相位信息的特征提取:提取每一帧语音的相位信息,包括群延迟系统MGDCC以及基于相位域的源分离方法的声道信息PBSFVT两种相位特征;
3)模型训练:将提取到的特征输入到多目标的DNN中,多目标的DNN网络可以同时对两个不同的目标进行学习,从而模拟不同目标之间的共性和差异。
2.根据权利要求1所述的基于振幅和相位信息的多目标学习的远场语音识别方法,其特征在于,所述步骤2)-(2)中基于相位信息的特征提取,包括群延迟系统MGDCC相位特征,具体提取过程如下:在进行语音信号处理的过程中,需要对语音信号的相位部分进行展开求解其负导数,其负导数称为群延迟系数(GDF);
群延迟函数其本质上是计算连续语谱图的导数的负数;
相位谱特征即非卷绕的相位谱特征可以表示为:
群延迟函数也同样可以被计算为下列的表述形式:
其中:下角标R和I分别表示的实部和虚部两个部分,和Y(ω)分别表示的是x(n)和nx(n)傅里叶转换之后的频域信息;
调整之后的群延迟系数可以计算为:
其中:S(ω)表示X(ω)的平滑版本;
减少频谱的尖峰特性,引入了两个新的变量α和γ来进行消除:
其中:α和γ,其取值范围均在0~1之间。
3.根据权利要求1所述的基于振幅和相位信息的多目标学习的远场语音识别方法,其特征在于,所述步骤2)-(2)中基于相位信息的特征提取,包括基于相位域的源分离方法的声道信息PBSFVT两种相位特征,具体提取过程如下:
使用短时傅里叶变换X(ω)可以被分解为两种:全通相位以及最小相位两个部分:
X(ω)=|X(ω)|ejarg{X(ω)}=XMinPh(ω)XAllp(ω)
其中:XMinPh(ω)和XAllp(ω)分别表示傅里叶变换之后的X对应的最小相位部分和全通相位部分,并且最小相位和原始语音信号之间存在着下式的关系:
|X(ω)|=|XMinPh(ω)|
另一方面,最小相位和全通相位之间的关系为:
arg{X(ω)}=arg{XMinPh(ω)}+arg{XAllp(ω)}
通过希尔伯特变换将语音信号从振幅域变换到相位域中,获得最小相位特征:
通过傅里叶变换后,卷积关系会变成相乘关系,得到下列等式:
将最小相位特征以及声道信息处理方法结合起来,使用源滤波模型在最小相位域的操作进行源滤波操作进行信息分离,将最小相位语音信号分解为声源信息和声道信息,从而得到两者不同的模型。
4.根据权利要求1所述的基于振幅和相位信息的多目标学习的远场语音识别方法,其特征在于,所述步骤3)具体为:构建多任务深度神经网络,将提取的振幅特征和相位特征输入到神经网络中训练,输出增强后语音以及增强后的特征。
5.根据权利要求1所述的基于振幅和相位信息的多目标学习的远场语音识别方法,其特征在于,还包括SRMR测评和语音识别,具体是将DNN输出的增强后的特征进行语音识别,从而得到词错误率,把输出的增强后的语音进行SRMR评测。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于天津大学,未经天津大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910134661.6/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种应用到端到端语音识别的CLDNN结构的建立方法
- 下一篇:唤醒词检测