[发明专利]命令词识别方法、设备及计算机存储介质有效
申请号: | 202011431850.9 | 申请日: | 2020-12-09 |
公开(公告)号: | CN112634869B | 公开(公告)日: | 2023-05-26 |
发明(设计)人: | 束建钢;黄炜;张伟哲;卢梓杰;黄树佳 | 申请(专利权)人: | 鹏城实验室 |
主分类号: | G10L15/02 | 分类号: | G10L15/02;G10L15/06;G10L15/08;G10L15/26;G10L17/00;G10L17/04 |
代理公司: | 深圳市世纪恒程知识产权代理事务所 44287 | 代理人: | 关向兰 |
地址: | 518000 广*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 命令 识别 方法 设备 计算机 存储 介质 | ||
本发明公开了一种命令词识别方法、设备及计算机存储介质,该方法包括以下步骤:基于SincNet提取声纹特征向量以及命令词特征向量;分别对所述声纹特征向量以及所述命令词特征向量使用改进后的三元组损失函数进行训练;基于特征检索数据库对所述声纹特征向量进行检索匹配;基于所述特征检索数据库对所述命令词特征向量进行检索匹配;当所述声纹特征向量满足第一预设阈值,且所述命令词特征向量满足第二预设阈值,则识别成功。本发明解决了命令词识别效果差及响应速度慢的问题,提高命令词识别效果及识别速度。
技术领域
本发明涉及语音识别领域,尤其涉及一种命令词识别方法、设备及计算机存储介质。
背景技术
声纹识别与语音识别在语音使用领域变得越来越重要,尤其物联网的出现,使得人工智能的应用场景得到进一步的提升,因此对语音识别的安全提出了挑战。
在命令词识别的任务中,命令词识别中面临着使用安全的挑战,一个未经判断使用者身份的工业系统常常更容易遭受到攻击和滥用。
系统的响应速度较低会降低用户体验感;同时也会给系统带来损害,例如紧急设备系统未能及时关闭会导致设备故障。原因一般为,1)特征向量检索较慢;2)当前的语音模型大多以句子为单位,这导致了模型参数量过大,也是响应速度较低的原因。
在一些大型的系统中,常常会有数十万的人员和上百万种的自定义命令。一般的特征向量检索方法较慢,从而降低响应速度。
发明内容
有鉴于此,提供一种命令词识别方法,解决命令词识别效果差及响应速度慢的问题。
本申请实施例提供了一种命令词识别方法,所述方法包括:
基于SincNet提取声纹特征向量以及命令词特征向量;
分别对所述声纹特征向量以及所述命令词特征向量使用改进后的三元组损失函数进行训练;其中所述改进后的三元组损失函数为负数时仍能训练;
基于特征检索数据库对所述声纹特征向量进行检索匹配;
基于所述特征检索数据库对所述命令词特征向量进行检索匹配;
当所述声纹特征向量满足第一预设阈值,且所述命令词特征向量满足第二预设阈值,则识别成功。
在一实施例中,所述基于SincNet提取声纹特征向量以及命令词特征向量,包括:
基于SincNet提取语音特征;
根据所述语音特征,利用预设层数依次叠加的残差网络,生成所述声纹特征向量以及所述命令词特征向量。
在一实施例中,所述SincNet的计算公式如下:
O[n]=x[n]*g[n,θ];
g[n,f1,f2]=2f2*sinc(2πf2n)-2f1*sinc(2πf1n);
sinC=sin(x)/x;
其中O函数为卷积函数,g函数为矩形通滤波器,θ为可训练参数;记G为g在频域空间的形式,G通过逆傅里叶变换转换为时域的形式;f为语音的原始频率,f1为低截止频率,f2为高截止频率,f1与f2均为可学习变量。
在一实施例中,所述分别对所述声纹特征向量以及所述命令词特征向量使用改进后的三元组损失函数进行训练,包括:
保存每一段语音对应的所述声纹特征向量以及所述命令词特征向量;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于鹏城实验室,未经鹏城实验室许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011431850.9/2.html,转载请声明来源钻瓜专利网。
- 上一篇:胫骨平台托把持器
- 下一篇:驱动器预充电及上电电路