[发明专利]具有分布式麦克风的声学分区在审
申请号: | 202080064826.8 | 申请日: | 2020-07-28 |
公开(公告)号: | CN114402385A | 公开(公告)日: | 2022-04-26 |
发明(设计)人: | M·R·P·托马斯;R·J·卡特赖特 | 申请(专利权)人: | 杜比实验室特许公司 |
主分类号: | G10L15/22 | 分类号: | G10L15/22;G10L15/08;H04R3/00;H04R3/12;H04S7/00 |
代理公司: | 北京律盟知识产权代理有限责任公司 11287 | 代理人: | 赵子杰 |
地址: | 美国加利*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 具有 分布式 麦克风 声学 分区 | ||
1.一种用于估计用户在环境中的位置的计算机实施的方法,所述方法包括:
从所述环境中的多个麦克风中的每一麦克风接收输出信号,所述多个麦克风中的至少两个麦克风被包含在所述环境中的单独位置处的单独装置中,所述输出信号对应于用户的当前话语;
从每一麦克风的所述输出信号确定多个当前声学特征;及
将分类器应用于所述多个当前声学特征,其中应用所述分类器涉及应用针对先前确定的声学特征进行训练的模型,所述先前确定的声学特征源自所述用户在所述环境中的多个用户区中说出的多个先前话语,其中所述模型将所述环境中的所述多个用户区与所述多个声学特征关联,
其中所述分类器的输出提供所述用户当前所在的所述用户区的估计,且
其中所述当前话语及所述先前话语包括唤醒词话语,且所述声学特征包含唤醒词置信度度量及/或唤醒词持续时间度量。
2.根据权利要求1所述的方法,其中所述多个麦克风中的至少一者被包含在智能音频装置中,或经配置用于与智能音频装置通信。
3.根据权利要求1或权利要求2所述的方法,其中所述多个用户区包括多个预定用户区。
4.根据权利要求1到3中任一权利要求所述的方法,其中所述估计是在不参考所述多个麦克风的几何位置的情况下确定的。
5.根据权利要求1到4中任一权利要求所述的方法,其中所述多个当前声学特征是异步地确定的。
6.根据权利要求1到5中任一权利要求所述的方法,其中所述分类器估计每一用户区的后验概率,其中所述用户当前所在的所述用户区被估计为具有最大后验概率的所述用户区。
7.根据权利要求1到6中任一权利要求所述的方法,其中使用标记有用户区的训练数据训练所述模型。
8.根据权利要求1到6中任一权利要求所述的方法,其中使用未标记有用户区的未标记训练数据训练所述模型。
9.根据权利要求1到8中任一权利要求所述的方法,其中所述声学特征进一步包含至少一个接收电平度量。
10.根据权利要求9所述的方法,其中所述模型是针对归一化唤醒词置信度、归一化平均接收电平或最大接收电平中的一或多者进行训练的高斯混合模型。
11.根据权利要求10所述的方法,其中所述归一化平均接收电平包含在最可信唤醒词的持续时间内的平均接收电平及/或所述最大接收电平包括在所述最可信唤醒词的持续时间内的最大接收电平。
12.根据权利要求1到11中任一权利要求所述的方法,其中所述模型的训练在应用所述分类器的过程期间继续。
13.根据权利要求12所述的方法,其中所述训练基于来自所述用户的显式反馈。
14.根据权利要求12或13所述的方法,其中所述训练基于对基于估计的用户区的波束形成或麦克风选择的成功的隐式反馈。
15.根据权利要求14所述的方法,其中所述隐式反馈包含以下至少一者:
用户异常地终止语音助手的响应的确定;或
命令辨识器返回低置信度结果;或
第二遍追溯唤醒词检测器返回说出唤醒词的低置信度。
16.根据权利要求1到15中任一权利要求所述的方法,其进一步包括根据所述估计的用户区选择至少一个扬声器,并控制所述至少一个扬声器以将声音提供到所述估计的用户区。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杜比实验室特许公司,未经杜比实验室特许公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202080064826.8/1.html,转载请声明来源钻瓜专利网。