[发明专利]一种语音识别方法、装置、存储介质和电子设备在审
申请号: | 202111658530.1 | 申请日: | 2021-12-31 |
公开(公告)号: | CN114267336A | 公开(公告)日: | 2022-04-01 |
发明(设计)人: | 张维城 | 申请(专利权)人: | 展讯通信(上海)有限公司 |
主分类号: | G10L15/02 | 分类号: | G10L15/02;G10L15/22;G10L17/02;G10L25/27;G06N3/08 |
代理公司: | 北京汇思诚业知识产权代理有限公司 11444 | 代理人: | 汪源 |
地址: | 201203 上海市浦东新区自*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 语音 识别 方法 装置 存储 介质 电子设备 | ||
本发明实施例提供了一种语音识别方法、装置、存储介质和电子设备。该方法包括:接收用户输入的语音命令;提取语音命令的语音中介特征值;通过深度学习算法判断语音中介特征值是否对应于存储的注册命令;若判断出语音中介特征值对应于存储的注册命令,通过深度学习算法判断语音中介特征值是否对应于存储的注册语音特征;若判断出语音中介特征值对应于存储的注册语音特征,则识别出用户的语音。本发明实施例提供的技术方案中,整合了语音启动检测和声纹识别检测,减少了语音识别所需的计算空间资源和储存空间资源,提高了语音识别的效率。
【技术领域】
本发明涉及语音识别技术领域,尤其涉及一种语音识别方法、装置、存储介质和电子设备。
【背景技术】
语音声控功能专注于与使用者无关的语音特征,而声纹识别功能则是专注于与使用者相关的语音特征,一般会以两个功能模组串连设计,并且由于专注的特征值不同,也会带有自己的前端讯号处理,包含时频转换及特征值撷取,提高了语音识别所需的计算空间资源和储存空间资源,降低了语音识别的效率。
【发明内容】
有鉴于此,本发明实施例提供了一种语音识别方法、装置、存储介质和电子设备,用以提高语音识别的效率。
一方面,本发明实施例提供了一种语音识别方法,包括:
接收用户输入的语音命令;
提取所述语音命令的语音中介特征值;
通过深度学习算法判断所述语音中介特征值是否对应于存储的注册命令;
若判断出所述语音中介特征值对应于存储的注册命令,通过深度学习算法判断所述语音中介特征值是否对应于存储的注册语音特征;
若判断出所述语音中介特征值对应于存储的注册语音特征,则识别出用户的语音。
可选地,所述接收用户输入的语音命令之前包括:
接收用户输入的多个注册命令;
提取每个所述注册命令的注册中介特征值;
判断多个所述注册命令的数量是否等于设定阈值;
若判断出多个所述注册命令的数量等于设定阈值,根据多个所述注册中介特征值生成注册语音特征;
存储所述注册语音特征。
可选地,还包括:
若判断出所述语音中介特征值未对应于存储的注册命令,继续执行所述接收用户输入的语音命令的步骤。
可选地,还包括:
若判断出所述语音中介特征值未对应于存储的注册语音特征,继续执行所述接收用户输入的语音命令的步骤。
可选地,还包括:
若判断出多个所述注册命令的数量小于设定阈值,则存储多个所述注册中介特征值,并继续执行所述接收用户输入的多个注册命令的步骤。
可选地,所述语音中介特征值包括频谱特征值,所述提取所述语音命令的语音中介特征值,包括:
提取所述语音命令的频谱特征值;
根据所述频谱特征值生成第一梅尔频谱特征值和第二梅尔频谱特征值。
可选地,所述通过深度学习算法判断所述语音中介特征值是否对应于存储的注册命令,包括:
通过深度学习算法判断所述第一梅尔频谱特征值是否对应于存储的注册命令;
所述通过深度学习算法判断所述语音中介特征值是否对应于存储的注册语音特征,包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于展讯通信(上海)有限公司,未经展讯通信(上海)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111658530.1/2.html,转载请声明来源钻瓜专利网。