[发明专利]一种基于迭代结构的双耳混合语音分离方法有效
申请号: | 201610824648.X | 申请日: | 2016-09-14 |
公开(公告)号: | CN106373589B | 公开(公告)日: | 2019-07-26 |
发明(设计)人: | 周琳;李楠;束佳明;吴镇扬 | 申请(专利权)人: | 东南大学 |
主分类号: | G10L21/0272 | 分类号: | G10L21/0272;G10L21/0308 |
代理公司: | 南京瑞弘专利商标事务所(普通合伙) 32249 | 代理人: | 杨晓玲 |
地址: | 210096*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公布了一种基于迭代结构的双耳混合语音分离方法。利用双耳空间线索,耳间时间差ITD(Interaural Time Difference)和耳间强度差IID(Interaural Intensity Difference)参数,对混合语音中的多个声源进行初步定位,将初次定位的声源个数和各个声源的空间方位信息作为分离依据,实现基于空间方位信息的各个声源数据流的分离和重构;随后对重构后的语音信号重新估计声源方位,利用修正后的方位信息对混合语音进行再次分离;按照上述步骤重复迭代处理后,将最后一次分离重构的各声源数据流作为最终声源分离结果。在低信噪比和强混响环境下,本发明提出的基于迭代结构和空间信息的双耳语音分离方法相比传统的双耳语音分离方法,显著提高了分离语音的感知质量。 | ||
搜索关键词: | 一种 基于 结构 混合 语音 分离 方法 | ||
【主权项】:
1.一种基于迭代结构的双耳混合语音分离方法,其特征在于,包括步骤:1)参数训练阶段:1.1)使用具有方向性的双耳白噪声信号进行训练;所述双耳白噪声信号由与头相关脉冲响应函数HRIR数据与单声道白噪声信号卷积生成,声源方位角θ定义为方向矢量在水平面的投影与中垂面的夹角,其范围为[‑90°,90°],间隔为5°;1.2)对1.1)的双耳白噪声信号进行预处理得到分帧后的单帧双耳声信号;所述预处理包括幅度归一化、分帧加窗和端点检测;1.3)对1.2)中得到的单帧双耳声信号进行互相关函数运算,并利用三次样条插值函数对所述互相关函数进行插值处理,计算得到单帧双耳声信号的ITD估计值;同一方位所有帧ITD估计值的均值作为该方位的ITD训练值,记为ITD(θ);1.4)对1.2)中得到的单帧双耳声信号进行短时傅里叶变换,将其变换到频域,计算左耳声信号和右耳声信号在每个频点幅度谱的比值,得到IID估计值;同一方位所有帧IID估计值的均值作为该方位的IID训练值,记为IID(ω,θ),ω为角频率;2)测试过程中的定位阶段:2.1)对测试双耳混合语音信号进行预处理得到单帧双耳语音信号,包括幅度归一化处理、分帧加窗和端点检测;2.2)对2.1)得到的单帧双耳语音信号采用1.3)的方法计算得到其ITD测试值:并将计算得到的ITD测试值与步骤1)中各个方位的ITD训练值进行距离计算得到各帧双耳语音信号的方位角估计值;2.3)对2.2)中得到的所有帧的方位角信息进行直方图统计,通过检测直方图中的峰值来估计测试双耳混合语音信号中的声源个数和声源方位;3)测试过程中的语音分离阶段:利用1)得到的各方位ITD训练值及各方位不同频点的IID估计值计算测试双耳混合语音信号中每一帧中每个频点与2.3)中得到的各个声源的距离;根据最小距离原则对每帧每个频点建立二进制掩码,根据二进制掩码对每帧每个频点信号进行归类,得到不同方位声源对应的频域成分,将同一声源对应的所有帧、所有频点信号进行重构,实现不同方位声源的测试双耳混合语音信号的分离;4)迭代阶段:4.1)对3)得到的不同方位声源的测试双耳混合语音信号通过2)重新估计声源方位信息,得到修正后的声源方位信息;4.2)根据4.1)得到的修正后的声源方位信息,通过3)对修正后的测试双耳混合语音进行再次分离,得到再次分离后的不同方位声源数据流;4.3)重复4.1)和4.2)进行迭代,迭代结束后,多个声源数据流为最终测试双耳混合语音分离的结果。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于东南大学,未经东南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201610824648.X/,转载请声明来源钻瓜专利网。