[发明专利]基于TC-ResNet网络的麦克风阵列语音分离方法有效
申请号: | 202011251485.3 | 申请日: | 2020-11-11 |
公开(公告)号: | CN112201276B | 公开(公告)日: | 2022-04-29 |
发明(设计)人: | 周琳;许越;王天仪;冯坤;陈俐源 | 申请(专利权)人: | 东南大学 |
主分类号: | G10L21/0272 | 分类号: | G10L21/0272;G10L21/0208;G10L25/21;G10L25/30 |
代理公司: | 南京瑞弘专利商标事务所(普通合伙) 32249 | 代理人: | 彭雄 |
地址: | 211189 江*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 tc resnet 网络 麦克风 阵列 语音 分离 方法 | ||
1.一种基于TC-ResNet网络的麦克风阵列语音分离方法,其特征在于,包括以下步骤:
步骤1,获取包含不同方位角、多个声源的混合麦克风阵列信号,阵列信号中同时包含混响和噪声;
步骤2,对步骤1获得的阵列信号进行子带滤波、分帧和加窗,得到各个子带分帧后的阵列语音信号;
步骤3,针对步骤2得到的子带分帧后的阵列语音信号,提取每个时频单元的改进GSRP-PHAT特征,同时引入前、后各3个时频单元共7个时频单元的GSRP-PHAT特征,融合为一个二维特征参数,作为TC-ResNet网络的输入特征参数;
步骤4,利用训练阵列语音信号的特征参数训练TC-ResNet网络,TC-ResNet网络包括输入层、若干个卷积层和池化层、全连接层、输出层,输入层的输入特征参数为步骤3中特征参数,卷积层后面为池化层,若干个卷积层和池化层依次排列,将最后一个池化层的多维输出展开成一维输出,网络的输出为输入特征对应的时频单元的掩码;TC-ResNet网络的训练过程具体包括:
步骤4-1,基于Kaiming初始化随机设置所有卷积层和全连接层的权值;
步骤4-2,随机取一些特征参数构成一批数据输入训练样本,训练样本为(Z(k,f),Y),其中,Z(k,f)是根据步骤3获得的特征参数,k为帧序号,f为子带序号;Y=(y0,y1,y2,…,yMout),ym表示网络第m个输出神经元的预期输出值,下标0对应噪声,1,2,…,Mout为方位角编号,Mout为方位角个数,每个神经元的预期输出值由IRM给定,其公式如下:
其中,M表示共有M个说话人,Si(k,f)2表示第i个说话人语音信号在(k,f)时频单元内的能量,Noise(k,f)2表示(k,f)时频单元内的噪声能量;i=0表示噪声;设第i个说话人所在方位角编号为m,则对应方位角神经元的期望输出值为ym=IRMi,y0设为IRM0;
步骤4-3,根据前向传播算法,依次计算每层网络的实际输出值,直到计算出每个Softmax单元的实际输出Y′=y′0,y′1,y′2,...,y′Mout;
步骤4-4,计算当前训练特征参数的代价函数,使用均方误差函数作为代价函数,则代价函数J的计算公式如下:
步骤4-5,使用反向传播算法,计算代价函数J对网络权重的偏导,并修正权重;
步骤4-6,若当前迭代次数小于预设总迭代次数,则返回至步骤4-2,继续输入训练样本进行计算,直至得到达到预设迭代次数时迭代结束,训练网络结束;
步骤5,训练好的TC-ResNet网络,对测试阵列语音信号对应的GSRP-PHAT特征参数进行计算,得到测试阵列语音信号的各时频单元的掩码,根据掩码和测试混合阵列信号,分离得到各个说话人的语音。
2.根据权利要求1所述基于TC-ResNet网络的麦克风阵列语音分离方法,其特征在于:步骤3中GSRP-PHAT特征的计算公式为:
式中,GSRP-PHATk,f(θ)表示第k帧、第f个子带的时频单元在声源方向角为θ时的特征值;N为阵列麦克风的总数;θ表示声源相对于阵列中心的方位角;ωfL、ωfH代表第f个子带的频率下限和上限;Xu(k,ω)、Xv(k,ω)表示第u个、第v个麦克风信号第k帧的频谱;
W(ω)是矩形窗的频谱,()*表示共轭运算,j表示虚数单位,ω表示频点,τ(θ,u,v)表示声源相对于阵列中心的方位角为θ时,声信号到第u个和第v个麦克风的时延差。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于东南大学,未经东南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011251485.3/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种中红外气体传感设备
- 下一篇:一种衣橱