[发明专利]利用深度学习和有限数据进行多阵列声音应用的特征处理在审
申请号: | 202010783855.1 | 申请日: | 2020-08-06 |
公开(公告)号: | CN112560885A | 公开(公告)日: | 2021-03-26 |
发明(设计)人: | G·J·V·M·勒穆安;P·维纳亚维金;D·J·R·阿格拉万特;井上忠宣;A·穆纳沃 | 申请(专利权)人: | 国际商业机器公司 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06K9/00;G06N3/04;G01S5/18 |
代理公司: | 北京市金杜律师事务所 11256 | 代理人: | 马明月 |
地址: | 美国纽*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 利用 深度 学习 有限 数据 进行 阵列 声音 应用 特征 处理 | ||
1.一种用于多源声音定位的计算机实现的方法,包括:
由硬件处理器从被包括在两个或更多个麦克风阵列中的每个麦克风阵列中的相应多个麦克风提取频谱特征;
由所述硬件处理器通过重新布置和复制来自被包括在所述两个或更多个麦克风阵列中的每个麦克风阵列中的所述相应多个麦克风的所述频谱特征,形成来自所述两个或更多个麦克风阵列中的每个麦克风阵列内的所述相应多个麦克风的所述频谱特征的对的相应集合;以及
由所述硬件处理器将所述频谱特征的对的所述相应集合输入神经网络中,以将所述频谱特征编码成深度特征,并对所述深度特征进行解码,以从所述神经网络输出一个或多个声音源的至少一个位置表示。
2.根据权利要求1所述的计算机实现的方法,其中所述神经网络包括多个编码器,所述多个编码器的权重在所述两个或更多个麦克风阵列中的每个麦克风阵列之间被共享。
3.根据权利要求1所述的计算机实现的方法,其中所述神经网络包括仅一个解码器,并且还包括用于所述两个或更多个麦克风阵列中的每个麦克风阵列的相应编码器以形成多个编码器,其中所述多个编码器在它们之间共享权重参数。
4.根据权利要求3所述的计算机实现的方法,其中响应于所述两个或更多个麦克风阵列是相同的并且共享几何性质,所述权重参数被共享。
5.根据权利要求3所述的计算机实现的方法,其中所述频谱特征被重新布置和复制,使得所述相应集合中的每个集合中的所述对彼此靠近,并且所述神经网络在所述多个编码器中的每个编码器之前包括卷积层,以用于形成所述频谱特征的对的所述相应集合。
6.根据权利要求1所述的计算机实现的方法,其中所述至少一个位置表示包括所述一个或多个声音源的二维方位。
7.根据权利要求1所述的计算机实现的方法,还包括使用所述一个或多个声音源的所述至少一个位置表示来对所述一个或多个声音源进行分类。
8.根据权利要求1所述的计算机实现的方法,还包括在显示设备上显示所述至少一个位置表示。
9.根据权利要求1所述的计算机实现的方法,其中所述一个或多个声音源包括至少两个同时的声音源。
10.一种具有随其体现的程序指令的非瞬态计算机可读存储介质,所述程序指令能够由计算机执行以使所述计算机执行方法以执行根据权利要求1-9中任一项所述的方法中的步骤。
11.一种用于多源声音定位的计算机处理系统,包括:
存储器设备,包括被存储在其上的程序代码;以及
硬件处理器,被操作地耦合到所述存储器设备,并被配置为运行被存储在所述存储器设备上的所述程序代码,以:
从被包括在两个或更多个麦克风阵列中的每个麦克风阵列中的相应多个麦克风提取频谱特征;
通过重新布置和复制来自被包括在所述两个或更多个麦克风阵列中的每个麦克风阵列中的所述相应多个麦克风的所述频谱特征,形成来自所述两个或更多个麦克风阵列中的每个麦克风阵列内的所述相应多个麦克风的所述频谱特征的对的相应集合;以及
将所述频谱特征的对的所述相应集合输入到神经网络中,以将所述频谱特征编码为深度特征,并对所述深度特征进行解码,以从所述神经网络输出一个或多个声音源的至少一个位置表示。
12.根据权利要求11所述的计算机处理系统,其中所述神经网络包括仅一个解码器,并且还包括用于所述两个或更多个麦克风阵列中的每个麦克风阵列的相应编码器以形成多个编码器,其中所述多个编码器在它们之间共享权重参数。
13.一种计算机系统,包括被配置为执行根据权利要求1-9中任一项所述的方法中的步骤的模块。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国际商业机器公司,未经国际商业机器公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010783855.1/1.html,转载请声明来源钻瓜专利网。
- 上一篇:诊断装置与方法以及计算机可读取存储媒介
- 下一篇:分析文本数据的语气