[发明专利]使用自适应阈值的说话者识别在审
申请号: | 201780021698.7 | 申请日: | 2017-02-21 |
公开(公告)号: | CN108885873A | 公开(公告)日: | 2018-11-23 |
发明(设计)人: | 纳拉彦·比斯瓦尔;格克肯·西林吉尔 | 申请(专利权)人: | 英特尔公司 |
主分类号: | G10L17/12 | 分类号: | G10L17/12;G10L17/20;G10L21/02 |
代理公司: | 北京东方亿思知识产权代理有限责任公司 11258 | 代理人: | 宗晓斌 |
地址: | 美国加利*** | 国省代码: | 美国;US |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 说话 自适应 噪声类型 噪声比 标签 语音 | ||
1.一种用于说话者识别的计算机实现的方法,包括:
基于所接收的音频输入来确定说话者识别分数;
基于所述所接收的音频输入来生成语音噪声比;
生成对应于所述所接收的音频输入的噪声类型标签;
至少部分地基于所述语音噪声比和所述噪声类型标签来确定自适应说话者识别阈值;以及
基于对所述说话者识别分数与所述说话者接受阈值的比较来针对所述所接收的音频输入执行说话者识别。
2.根据权利要求1所述的方法,其中,确定所述自适应说话者识别阈值包括基于对应于所述所接收的音频输入的所述语音噪声比、所述噪声类型标签、以及目标错误接受率或目标错误拒绝率中的至少一个来确定所述说话者接受阈值。
3.根据权利要求2所述的方法,还包括:
基于对应于所述所接收的音频输入的说话者识别应用来确定所述目标错误接受率或所述目标错误拒绝率。
4.根据权利要求3所述的方法,其中,当所述说话者识别应用包括生物识别安全应用时,所述目标错误接受率包括第一值,并且当所述说话者识别应用包括认证命令应用时,所述目标错误接受率包括第二值,并且其中,所述第一值小于所述第二值。
5.根据权利要求2所述的方法,其中,确定所述自适应说话者识别阈值包括基于所述语音噪声比、所述噪声类型标签、以及目标错误接受率或目标错误拒绝率中的至少一个来访问查找表以确定所述说话者接受阈值。
6.根据权利要求1所述的方法,还包括:
至少部分地基于对应于所接收的第二音频输入的第二语音噪声比和第二噪声类型标签来确定第二自适应说话者识别阈值;以及
基于对第二说话者识别分数与所述第二自适应说话者识别阈值的第二比较来针对所述所接收的第二音频输入执行第二说话者识别,其中,所述第一自适应说话者识别阈值和所述第二自适应说话者识别阈值不同。
7.根据权利要求1所述的方法,其中,执行说话者识别包括当所述说话者识别分数超过所述自适应说话者识别阈值时,接受所述所接收的音频输入作为对应于目标用户,或者当所述说话者识别分数未超过所述自适应说话者识别阈值时,拒绝所述所接收的音频输入作为对应于所述目标用户。
8.根据权利要求1所述的方法,还包括:
基于所述所接收的音频输入来确定第二说话者识别分数,其中,确定所述说话者识别分数包括应用对应于第一用户的说话者模型,并且确定所述第二说话者识别分数包括应用对应于第二用户的第二说话者模型,其中,所述第一说话者模型和所述第二说话者模型不同,并且
其中,执行所述说话者识别包括对所述第二说话者识别分数与所述自适应说话者识别阈值的第二比较。
9.根据权利要求8所述的方法,还包括:
基于所述比较和所述第二比较来提供对应于所述第一用户或所述第二用户的标识说话者指示符。
10.根据权利要求1所述的方法,其中,确定所述说话者识别分数、生成所述语音噪声比、或生成所述噪声类型标签中的至少一个包括从所述所接收的音频输入中提取特征并将预训练的分类模型应用于所述特征。
11.一种用于执行说话者识别的系统,包括:
存储器,被配置为存储所接收的音频输入;以及
数字信号处理器,被耦合到所述存储器,所述数字信号处理器用于:基于所接收的音频输入来确定说话者识别分数;基于所述所接收的音频输入来生成语音噪声比;生成对应于所述所接收的音频输入的噪声类型标签;至少部分地基于所述语音噪声比和所述噪声类型标签来确定自适应说话者识别阈值;以及基于对所述说话者识别分数与所述说话者接受阈值的比较来针对所述所接收的音频输入执行说话者识别。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于英特尔公司,未经英特尔公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201780021698.7/1.html,转载请声明来源钻瓜专利网。
- 上一篇:应答生成装置、对话控制系统以及应答生成方法
- 下一篇:信息处理装置和方法