[发明专利]声音分离装置、声音分离方法、声音分离程序以及声音分离系统在审
申请号: | 201880096367.4 | 申请日: | 2018-08-24 |
公开(公告)号: | CN112567459A | 公开(公告)日: | 2021-03-26 |
发明(设计)人: | 相原龙;花泽利行;冈登洋平;G·P·维彻恩;J·勒劳克斯 | 申请(专利权)人: | 三菱电机株式会社 |
主分类号: | G10L21/028 | 分类号: | G10L21/028;G10L21/0308 |
代理公司: | 中国贸促会专利商标事务所有限公司 11038 | 代理人: | 金春实 |
地址: | 日本*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 声音 分离 装置 方法 程序 以及 系统 | ||
声音分离系统的声音分离装置(12)具备:特征量抽出部(121),抽出混合声音的声音特征量的时间序列数据;块分割部(122),将声音特征量的时间序列数据分割成具有一定的时间宽度的块;声音分离神经网络(1b),根据块化的声音特征量的时间序列数据,制作多个说话者各自的掩码的时间序列数据;以及声音恢复部(123),从掩码的时间序列数据和混合声音的声音特征量的时间序列数据,恢复多个说话者各自的声音数据。在多个说话者各自的掩码的时间序列数据的制作中,声音分离神经网络(1b)在正向的LSTM神经网络中使用与当前相比在时间上靠前的块的时间序列数据,在逆向的LSTM神经网络中使用与当前相比在时间上靠后的包括预先决定的数量的帧的块的时间序列数据。
技术领域
本发明涉及用于从包含多个说话者的声音的混合声音的混合声音数据分离多个说话者各自的声音的声音数据的声音分离装置、声音分离方法及声音分离程序、以及包括声音分离装置的声音分离系统。
背景技术
声音识别处理一般是对从1名说话者发声的声音进行的。在对包含从多个说话者同时发声的多个声音的混合声音进行声音识别处理时,声音识别的精度大幅降低。因此,需要将多个说话者的混合声音分离成这些多个说话者中的某一个说话者(以下还称为“各说话者”或者“原说话者”)的声音、即把混合声音数据分离成各说话者的声音数据。
非专利文献1提出将多个说话者的混合声音分离的声音分离方法。在该方法中,使用Bidirectional Long Short-Term Memory(BLSTM),根据多个说话者的混合声音的功率谱,推测各说话者的掩码、和能够通过无教师聚类(unsupervised clustering)分离说话者的埋入矢量。通过将推测的各说话者的掩码应用于多个说话者的混合声音,从混合声音分离各说话者的声音。将包括BLSTM的神经网络称为BLSTM神经网络。
掩码是用于输入多个说话者的混合声音的声音特征量并输出各说话者的声音的声音特征量的过滤器。掩码被大致分为软掩码(soft mask)和二元掩码(binary mask)这2种。软掩码能够针对频率-时间的每个库(bin),用比值表示包含于多个说话者的混合声音的声音特征量的各说话者的声音的声音特征量的分量。二元掩码能够针对频率-时间的每个库,通过二元表现来表示支配性的说话者。
时间-频率的库是表示针对每一定的时间宽度以及一定的频率宽度进行分析而得到的声音信息的标量值或者矢量。例如,时间-频率的库是表示关于如下范围的功率以及相位的复数值:该范围是将以采样频率8kHz录音的声音在时间方向上以32ms的窗宽以8ms的间隔划分,并且在频率方向上将0Hz至4kHz的频率等间隔地划分成1024个而得到的。
埋入矢量是针对声音特征量的时间-频率的每个库进行推测的矢量。通过学习BLSTM神经网络,同一说话者的埋入矢量相互类似,不同说话者的埋入矢量不会相互类似。通过这样学习BLSTM神经网络,每当对推测的埋入矢量进行聚类时,能够从多个说话者的混合声音分离各说话者的声音。
现有技术文献
非专利文献
非专利文献1:Z.-Q.Wang、外2名、“Alternative Objective Functions for DeepClustering”、IEEE International Conference on Acoustics,Speech,and SignalProcessing(ICASSP)、2018
发明内容
然而,使用BLSTM神经网络的声音分离方法是组合利用声音信号的从过去向未来的回归和从未来向过去的回归的方法。因此,在使用BLSTM神经网络的声音分离方法中,如果不是在完成所有声音信号的输入之后,则无法分离输出各说话者的声音。即,存在会发生与输入的声音信号的声音长度对应的时间以上的处理延迟这样的课题。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于三菱电机株式会社,未经三菱电机株式会社许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201880096367.4/2.html,转载请声明来源钻瓜专利网。
- 上一篇:空腔滤波器
- 下一篇:用于移动设备的位置报告