[发明专利]多模式语音定位在审
申请号: | 201980030506.8 | 申请日: | 2019-04-30 |
公开(公告)号: | CN112088315A | 公开(公告)日: | 2020-12-15 |
发明(设计)人: | E·克鲁普卡;肖雄 | 申请(专利权)人: | 微软技术许可有限责任公司 |
主分类号: | G01S3/801 | 分类号: | G01S3/801;G01S5/18;G10L17/10;G10L17/00;G06K9/00;H04N7/15;H04N5/232;G06T7/70;G06K9/62 |
代理公司: | 永新专利商标代理有限公司 72002 | 代理人: | 李光颖 |
地址: | 美国华*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 使用由一个或多个相机捕获的图像数据以及由麦克风阵列捕获的音频数据来实现多模式语音定位。变换由阵列的每个麦克风捕获的音频数据以获得在多个频率间隔中离散化的频域表示。由每个相机捕获的图像数据被用于确定每个人类面部的定位。将输入数据提供给在先训练的音频源定位分类器,包括:由每个麦克风捕获的所述音频数据的所述频域表示,以及由每个相机捕获的每个人类面部的定位,其中,每个人类面部的定位表示候选音频源。由分类器基于被估计为所述音频数据所源自的人类面部的输入数据来指示识别出的音频源。 | ||
搜索关键词: | 模式 语音 定位 | ||
【主权项】:
暂无信息
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于微软技术许可有限责任公司,未经微软技术许可有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201980030506.8/,转载请声明来源钻瓜专利网。