[发明专利]命令词识别方法、设备及计算机存储介质有效
申请号: | 202011431850.9 | 申请日: | 2020-12-09 |
公开(公告)号: | CN112634869B | 公开(公告)日: | 2023-05-26 |
发明(设计)人: | 束建钢;黄炜;张伟哲;卢梓杰;黄树佳 | 申请(专利权)人: | 鹏城实验室 |
主分类号: | G10L15/02 | 分类号: | G10L15/02;G10L15/06;G10L15/08;G10L15/26;G10L17/00;G10L17/04 |
代理公司: | 深圳市世纪恒程知识产权代理事务所 44287 | 代理人: | 关向兰 |
地址: | 518000 广*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 命令 识别 方法 设备 计算机 存储 介质 | ||
1.一种命令词识别方法,其特征在于,所述方法包括:
基于SincNet提取声纹特征向量以及命令词特征向量;
分别对所述声纹特征向量以及所述命令词特征向量使用改进后的三元组损失函数进行训练;其中所述改进后的三元组损失函数为负数时仍能训练;
基于特征检索数据库对所述声纹特征向量进行检索匹配;
基于所述特征检索数据库对所述命令词特征向量进行检索匹配;
当所述声纹特征向量满足第一预设阈值,且所述命令词特征向量满足第二预设阈值,则识别成功。
2.如权利要求1所述的命令词识别方法,其特征在于,所述基于SincNet提取声纹特征向量以及命令词特征向量,包括:
基于SincNet提取语音特征;
根据所述语音特征,利用预设层数依次叠加的残差网络,生成所述声纹特征向量以及所述命令词特征向量。
3.如权利要求2所述的命令词识别方法,其特征在于,所述SincNet的计算公式如下:
O[n]=x[n]*g[n,θ];
g[n,f1,f2]=2f2*sinc(2πf2n)-2f1*sinc(2πf1n);
sinc=sin(x)/x;
其中O函数为卷积函数,g函数为矩形通滤波器,θ为可训练参数;记G为g在频域空间的形式,G通过逆傅里叶变换转换为时域的形式;f为语音的原始频率,f1为低截止频率,f2为高截止频率,f1与f2均为可学习变量。
4.如权利要求1所述的命令词识别方法,其特征在于,所述分别对所述声纹特征向量以及所述命令词特征向量使用改进后的三元组损失函数进行训练,包括:
保存每一段语音对应的所述声纹特征向量以及所述命令词特征向量;
采用锚点的特征向量和正样本距离最远的样本特征向量以及采用所述锚点的特征向量和负样本距离最近的样本特征向量用于训练。
5.如权利要求4所述的命令词识别方法,其特征在于,所述采用锚点的特征向量和所述正样本距离最远的样本特征向量以及采用所述的特征向量和所述负样本距离最近的样本特征向量用于训练的公式如下:
记Av为所述锚点的特征向量组,Pv为所述正样本的特征向量组,Nv为所述负样本的特征向量组;则:
distance(Av,Pv)=Av*Pv;
distance(Av,Nv)=Av*Nv;
diff=distance(Av,Pv)-distance(Av,Nv)+margin;
a~U(l,u),l<u and l,u∈[0,1).
其中所述锚点为同一类内的样本;所述正样本为与锚点同一类的样本,所述负样本为与锚点不同类的样本;distance采用mse(c,d)=(c-d)2;margin为自定义的一个阈值;a为可学习参数,U(l,u)服从[l,u)之间的均匀分布。
6.如权利要求1所述的命令词识别方法,其特征在于,所述基于特征检索数据库对所述声纹特征向量进行检索匹配,包括:
提取待检索的声纹特征向量,并存储于pymagnitude特征检索数据库;
计算所述声纹特征向量与所述待检索的声纹特征向量的余弦相似度,获得匹配度最高的第一余弦相似度;其中所述待检索的声纹特征向量为pymagnitude特征检索数据库内利用K维树的检索方式检索所得。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于鹏城实验室,未经鹏城实验室许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011431850.9/1.html,转载请声明来源钻瓜专利网。
- 上一篇:胫骨平台托把持器
- 下一篇:驱动器预充电及上电电路