[发明专利]一种语音命令识别的方法及装置有效
申请号: | 201980095577.6 | 申请日: | 2019-04-30 |
公开(公告)号: | CN113692618B | 公开(公告)日: | 2023-04-28 |
发明(设计)人: | 陈勰 | 申请(专利权)人: | 华为技术有限公司 |
主分类号: | G10L15/20 | 分类号: | G10L15/20;G10L15/26 |
代理公司: | 北京同达信恒知识产权代理有限公司 11291 | 代理人: | 高金金 |
地址: | 518129 广东*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 语音 命令 识别 方法 装置 | ||
提供了一种语音命令识别的方法及装置,其中该方法包括:接收待确定语音命令的第一音频信号(步骤21);针对N个候选语音命令分别执行以下过程:在第一音频信号中,滤除第n个候选i吾音命令对应的第二音频信号,得到第三音频信号;将第三音频信号输入到预先训练完成的音频模型中,该音频模型用于识别输入的音频信号与背景音频信号的匹配度,得到第n个候选语音命令对应的匹配度(步骤22);n取遍1‑N的每个整数,N为大于0的整数;根据N个候选语音命令对应的匹配度,确定第一音频信号中的语音命令(步骤24)。将语音命令的识别过程转换为噪音的分类问题,可以提升语音命令识别的准确性及场景适应性。
技术领域
本申请涉及语音识别领域,特别涉及一种语音命令识别的方法及装置。
背景技术
随着语音识别技术的发展进步,越来越多的语音识别装置安装在智能终端、家电设备、公共设施设备和工业设备上,以使各种设备能够实现语音识别,消除了人机交互的障碍。设备可通过语音命令来执行相应的功能,比如,受控设备检测到语音命令“开机”时,可以执行“开机”的操作。
而语音识别技术很容易受到人为噪音以及自然噪音的影响,且语音识别的准确率与噪音直接相关,比如当噪音较小时,语音识别率较高,但是当噪音很大时,语音识别效果将会变得很差,甚至受控设备不能识别到对应的语音命令。
基于此,在自然噪音以及人为噪音存在的场景下,如何提高语音命令识别的准确率,是需要引起重视的问题。
发明内容
本申请提供了一种语音命令识别的方法及装置,用以解决现有技术中在存在噪音时,语音命令识别准确率低的问题。
第一方面,提供了一种语音命令识别的方法,受控设备接收待确定语音命令的第一音频信号;受控设备中保存有N个候选语音命令;针对N个候选语音命令,受控设备可以分别执行以下过程:在所述第一音频信号中,滤除第n个候选语音命令对应的第二音频信号,得到第三音频信号;将第三音频信号输入到预先训练完成的音频模型中,所述音频模型用于识别输入的音频信号与背景音频信号的匹配度,得到第n个候选语音命令对应的匹配度;n取遍1-N的每个整数,N为大于0的整数;受控设备可以根据N个候选语音命令分别对应的匹配度,确定所述第一音频信号中的语音命令。
通过轮询所有语音命令的方式判断当前用户想到的语音命令是什么,将语音命令的识别过程转换为一个“噪音”的分类问题,可以较好提升语音命令识别的准确性及场景适应性。
在一种可能的实现中,受控设备可以预先训练所述音频模型,受控设备可以先采集包括语音命令的第一样本背景音信号,其中,每个第一样本背景音信号中包括一个或多个语音命令的音频信号;然后可以在第一样本背景音信号中滤除所述第一样本背景音信号包括的语音命令的音频信号,得到第二样本背景音信号;还可以在所述第一样本背景音信号中滤除所述第一样本背景音信号未包括的语音命令的音频信号,得到对应的第一样本非背景音信号;还可以在所述第二样本背景音信号中滤除所述第二样本背景音信号未包括的语音命令的音频信号,得到对应的第二样本非背景音信号;最后采用多个第一样本背景音信号和对应的第一样本非背景音信号,以及多个第二样本背景音信号和对应的第二样本非背景音信号,训练得到所述音频模型。
通过CNN训练模型的方式来检测噪音,这种方法针对各种场景具有普适性,在一个新的场景中,只需要增加当前场景的训练数据,即可在新场景中有较高的识别率。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华为技术有限公司,未经华为技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201980095577.6/2.html,转载请声明来源钻瓜专利网。