[发明专利]一种基于迭代结构的双耳混合语音分离方法有效

申请号：	201610824648.X	申请日：	2016-09-14
公开（公告）号：	CN106373589B	公开（公告）日：	2019-07-26
发明（设计）人：	周琳;李楠;束佳明;吴镇扬	申请（专利权）人：	东南大学
主分类号：	G10L21/0272	分类号：	G10L21/0272;G10L21/0308
代理公司：	南京瑞弘专利商标事务所(普通合伙) 32249	代理人：	杨晓玲
地址：	210096***	国省代码：	江苏;32
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明公布了一种基于迭代结构的双耳混合语音分离方法。利用双耳空间线索，耳间时间差ITD(Interaural Time Difference)和耳间强度差IID(Interaural Intensity Difference)参数，对混合语音中的多个声源进行初步定位，将初次定位的声源个数和各个声源的空间方位信息作为分离依据，实现基于空间方位信息的各个声源数据流的分离和重构；随后对重构后的语音信号重新估计声源方位，利用修正后的方位信息对混合语音进行再次分离；按照上述步骤重复迭代处理后，将最后一次分离重构的各声源数据流作为最终声源分离结果。在低信噪比和强混响环境下，本发明提出的基于迭代结构和空间信息的双耳语音分离方法相比传统的双耳语音分离方法，显著提高了分离语音的感知质量。
搜索关键词：	一种基于结构混合语音分离方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

1.一种基于迭代结构的双耳混合语音分离方法，其特征在于，包括步骤：1)参数训练阶段：1.1)使用具有方向性的双耳白噪声信号进行训练；所述双耳白噪声信号由与头相关脉冲响应函数HRIR数据与单声道白噪声信号卷积生成，声源方位角θ定义为方向矢量在水平面的投影与中垂面的夹角，其范围为[‑90°,90°]，间隔为5°；1.2)对1.1)的双耳白噪声信号进行预处理得到分帧后的单帧双耳声信号；所述预处理包括幅度归一化、分帧加窗和端点检测；1.3)对1.2)中得到的单帧双耳声信号进行互相关函数运算，并利用三次样条插值函数对所述互相关函数进行插值处理，计算得到单帧双耳声信号的ITD估计值；同一方位所有帧ITD估计值的均值作为该方位的ITD训练值，记为ITD(θ)；1.4)对1.2)中得到的单帧双耳声信号进行短时傅里叶变换，将其变换到频域，计算左耳声信号和右耳声信号在每个频点幅度谱的比值，得到IID估计值；同一方位所有帧IID估计值的均值作为该方位的IID训练值，记为IID(ω,θ)，ω为角频率；2)测试过程中的定位阶段：2.1)对测试双耳混合语音信号进行预处理得到单帧双耳语音信号，包括幅度归一化处理、分帧加窗和端点检测；2.2)对2.1)得到的单帧双耳语音信号采用1.3)的方法计算得到其ITD测试值：并将计算得到的ITD测试值与步骤1)中各个方位的ITD训练值进行距离计算得到各帧双耳语音信号的方位角估计值；2.3)对2.2)中得到的所有帧的方位角信息进行直方图统计，通过检测直方图中的峰值来估计测试双耳混合语音信号中的声源个数和声源方位；3)测试过程中的语音分离阶段：利用1)得到的各方位ITD训练值及各方位不同频点的IID估计值计算测试双耳混合语音信号中每一帧中每个频点与2.3)中得到的各个声源的距离；根据最小距离原则对每帧每个频点建立二进制掩码，根据二进制掩码对每帧每个频点信号进行归类，得到不同方位声源对应的频域成分，将同一声源对应的所有帧、所有频点信号进行重构，实现不同方位声源的测试双耳混合语音信号的分离；4)迭代阶段：4.1)对3)得到的不同方位声源的测试双耳混合语音信号通过2)重新估计声源方位信息，得到修正后的声源方位信息；4.2)根据4.1)得到的修正后的声源方位信息，通过3)对修正后的测试双耳混合语音进行再次分离，得到再次分离后的不同方位声源数据流；4.3)重复4.1)和4.2)进行迭代，迭代结束后，多个声源数据流为最终测试双耳混合语音分离的结果。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于东南大学，未经东南大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201610824648.X/，转载请声明来源钻瓜专利网。

上一篇：一种用于取样液体降温的取样器及其使用方法
下一篇：一种海上深层海水取水测温循环系统

同类专利

专利分类

G 物理

G10 乐器；声学
G10L 语音分析或合成；语音识别；音频分析或处理
G10L21-00 为了改变语音信号的质量或其可识度而处理语音信号，以产生另一种可听的或非可听的信号，例如视觉信号或触觉信号
G10L21-02 .语音增强，例如降低噪声或消除回声
G10L21-04 .时间压缩或扩展
G10L21-06 .将语音转换成非可听表达形式，例如语音可视化、触觉辅助的语音处理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于迭代结构的双耳混合语音分离方法有效

专利文献下载