[发明专利]基于TC-ResNet网络的麦克风阵列语音分离方法有效
申请号: | 202011251485.3 | 申请日: | 2020-11-11 |
公开(公告)号: | CN112201276B | 公开(公告)日: | 2022-04-29 |
发明(设计)人: | 周琳;许越;王天仪;冯坤;陈俐源 | 申请(专利权)人: | 东南大学 |
主分类号: | G10L21/0272 | 分类号: | G10L21/0272;G10L21/0208;G10L25/21;G10L25/30 |
代理公司: | 南京瑞弘专利商标事务所(普通合伙) 32249 | 代理人: | 彭雄 |
地址: | 211189 江*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 tc resnet 网络 麦克风 阵列 语音 分离 方法 | ||
本发明公开了一种基于TC‑ResNet网络的麦克风阵列语音分离方法,针对带有噪声与混响的多说话人测试语音信号,提取每个时频单元的改进相位变换加权的可控响应功率GSRP‑PHAT参数,同时为了引入上下文信息,将前、后时频单元的GSRP‑PHAT参数进行拼接,作为当前时频单元的特征参数,输入TC‑ResNet网络进行训练;测试过程中,提取包含多个说话人的测试语音当前时频单元的特征参数,利用训练好的TC‑ResNet网络估计出当前时频单元的掩码,从而分离出各个说话人的语音信号。本发明语音可懂度更高,在高噪声和强混响情况下性能更为优越。
技术领域
本发明属于语音分离技术领域,涉及一种基于TC-ResNet网络的麦克风阵列语音分离方法。
背景技术
实际生活环境中,因为噪声混响以及干扰的存在,机器难以分辨目标语音。语音分离作为语音信号系统的前端,分离后的语音信号质量对后续的语音信号处理模块会有很大的影响。
语音分离技术所涉领域很广,包括但不限于声学、数字信号处理、信息通讯、听觉心理与生理学等。多通道的语音分离技术利用阵列麦克风收集语音信号,然后从收集到的带有噪声、混响和其他说话人干扰的多通道语音信号中提取出说话人的语音。
多通道的传统语音分离主要使用独立成分分析以及波束成形。独立成分分析利用源信号的独立性,在信号瞬间混合的情况下有不错的分离性能。而波束成形则通过配置麦克风的空间结构,利用不同声源信号到不同麦克风的时延,提升选定方向的信号,削弱其他方向的信号。波束成形可分为固定波束成形与自适应波束成形,该类型算法有多种优化准则来调整滤波器的参数,常见的有最大信噪比(MSNR),最小方差无失真(MVDR),最小均方误差(MMSE) 等。独立成分分析和波束成形两种方法在有混响时,分离性能会大幅度下降。此外,波束成形在目标声源与干扰声源非常近时也会变得难以分离。
发明内容
发明目的:为了克服现有技术中存在的不足,本发明提供一种基于TC-ResNet网络的麦克风阵列语音分离方法,针对带有噪声与混响的多说话人语音信号,使用改进的相位变换加权的可控响应功率(GSRP-PHAT)作为时频单元的特征,多帧拼接为特征参数对TC-ResNet 进行训练;测试过程中计算出测试语音的GSRP-PHAT,利用训练好的网络估计出时频单元的掩码,从而分离出单说话人语音信号。
技术方案:为实现上述目的,本发明采用的技术方案为:
一种基于TC-ResNet网络的麦克风阵列语音分离方法,针对带有噪声与混响的多说话人测试语音信号,提取每个时频单元的改进相位变换加权的可控响应功率(GSRP-PHAT)参数,同时为了引入上下文信息,将前、后时频单元的GSRP-PHAT参数进行拼接,作为当前时频单元的特征参数,输入TC-ResNet网络进行训练;测试过程中,提取包含多个说话人的测试语音当前时频单元的特征参数,利用训练好的TC-ResNet网络估计出当前时频单元的掩码,从而分离出各个说话人的语音信号,具体包括以下步骤:
步骤1,获取包含不同方位角、多个声源的混合麦克风阵列信号,阵列信号中同时包含混响和噪声;
步骤2,对步骤1获得的阵列信号进行子带滤波、分帧和加窗,得到各个子带分帧后的阵列语音信号;
步骤3,针对步骤2得到的子带分帧后的阵列语音信号,提取每个时频单元的改进GSRP-PHAT特征,同时引入前、后各3个时频单元共7个时频单元的GSRP-PHAT特征,融合为一个二维特征参数,作为TC-ResNet网络的输入特征参数。
步骤4,利用训练阵列语音信号的特征参数训练TC-ResNet网络,TC-ResNet网络包括输入层、若干个卷积层和池化层、全连接层、输出层,输入层的输入特征参数为步骤3中特征参数,卷积层后面为池化层,若干个卷积层和池化层依次排列,将最后一个池化层的多维输出展开成一维输出,网络的输出为输入特征对应的时频单元的掩码;TC-ResNet网络的训练过程具体包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于东南大学,未经东南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011251485.3/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种中红外气体传感设备
- 下一篇:一种衣橱