[发明专利]声音分离装置、声音分离方法、声音分离程序以及声音分离系统在审
申请号: | 201880096367.4 | 申请日: | 2018-08-24 |
公开(公告)号: | CN112567459A | 公开(公告)日: | 2021-03-26 |
发明(设计)人: | 相原龙;花泽利行;冈登洋平;G·P·维彻恩;J·勒劳克斯 | 申请(专利权)人: | 三菱电机株式会社 |
主分类号: | G10L21/028 | 分类号: | G10L21/028;G10L21/0308 |
代理公司: | 中国贸促会专利商标事务所有限公司 11038 | 代理人: | 金春实 |
地址: | 日本*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 声音 分离 装置 方法 程序 以及 系统 | ||
1.一种声音分离装置,从包含多个说话者的声音的混合声音的混合声音数据,分离所述多个说话者各自的声音的声音数据,该声音分离装置的特征在于,具备:
特征量抽出部,从所述混合声音数据,抽出所述混合声音的声音特征量的时间序列数据;
块分割部,通过将所述声音特征量的时间序列数据分割成具有一定的时间宽度的块,生成块化的声音特征量的时间序列数据;
声音分离神经网络,包括在时间轴方向上正向的LSTM神经网络和在所述时间轴方向上逆向的LSTM神经网络的组合,根据所述块化的所述声音特征量的时间序列数据,制作所述多个说话者各自的掩码的时间序列数据;以及
声音恢复部,从所述掩码的时间序列数据和所述混合声音的所述声音特征量的时间序列数据,恢复所述多个说话者各自的声音的所述声音数据,
在所述多个说话者各自的掩码的时间序列数据的制作中,所述声音分离神经网络在所述正向的LSTM神经网络中使用与当前相比在时间上靠前的块的时间序列数据,在所述逆向的LSTM神经网络中使用与所述当前相比在时间上靠后的包括预先决定的数量的帧的块的时间序列数据。
2.根据权利要求1所述的声音分离装置,其特征在于,
所述声音分离装置还具备块长度选择部,该块长度选择部在将所述声音特征量的时间序列数据在时间轴方向上分割成1个以上的所述块时,根据所述声音特征量选择指定所述块的所述时间宽度的块长度,
作为所述声音分离神经网络,具备多个声音分离神经网络,
使用所述多个声音分离神经网络中的与所述块长度对应的声音分离神经网络,制作所述多个说话者各自的所述掩码的时间序列数据。
3.一种声音分离系统,其特征在于,具备:
权利要求1或者2所述的声音分离装置;以及
声音分离模型学习装置,学习所述声音分离神经网络,
所述声音分离模型学习装置具备:
混合声音制作部,根据包含多个说话者各自发声的单独声音的声音数据的学习数据,制作包含所述多个说话者的声音的混合声音的声音数据;
学习用的特征量抽出部,从所述混合声音的声音数据抽出所述混合声音的声音特征量的时间序列数据,从所述单独声音的声音数据抽出所述单独声音的声音特征量的时间序列数据;
掩码制作部,根据由所述学习用的特征量抽出部抽出的所述混合声音的声音特征量的时间序列数据及所述单独声音的声音特征量的时间序列数据,制作所述多个说话者各自的掩码的时间序列数据;以及
模型学习部,根据由所述学习用的特征量抽出部抽出的所述混合声音的声音特征量的时间序列数据及所述单独声音的声音特征量的时间序列数据、和由所述掩码制作部制作的所述掩码的时间序列数据,学习所述声音分离神经网络。
4.根据权利要求3所述的声音分离系统,其特征在于,
所述声音分离模型学习装置还具备学习用的块分割部,该学习用的块分割部将由所述混合声音制作部制作的所述混合声音的声音特征量的时间序列数据以及所述单独声音的声音特征量的时间序列数据、和由所述掩码制作部制作的所述掩码的时间序列数据在时间轴方向上分割成1个以上的块,
所述模型学习部根据由所述学习用的块分割部进行了块化的混合声音的声音特征量的时间序列数据、由所述学习用的块分割部进行了块化的所述单独声音的声音特征量的时间序列数据、以及由所述学习用的块分割部进行了块化的所述掩码的时间序列数据,学习所述声音分离神经网络。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于三菱电机株式会社,未经三菱电机株式会社许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201880096367.4/1.html,转载请声明来源钻瓜专利网。
- 上一篇:空腔滤波器
- 下一篇:用于移动设备的位置报告