[发明专利]低内存语音关键词检测方法、系统、介质、设备及终端在审
申请号: | 202110227395.9 | 申请日: | 2021-03-02 |
公开(公告)号: | CN112735469A | 公开(公告)日: | 2021-04-30 |
发明(设计)人: | 张军英;王洋;邹台 | 申请(专利权)人: | 西安电子科技大学 |
主分类号: | G10L25/24 | 分类号: | G10L25/24;G10L25/18;G10L25/30;G10L25/51 |
代理公司: | 西安长和专利代理有限公司 61227 | 代理人: | 黄伟洪 |
地址: | 710071 陕西省*** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 内存 语音 关键词 检测 方法 系统 介质 设备 终端 | ||
1.一种低内存语音关键词检测方法,其特征在于,所述低内存语音关键词检测方法对语音信号进行预处理、时频域特征MFCC提取、关注和时序卷积神经网络TACRNN模型训练;对TACRNN模型中全连接层的参数通过SVD技术进行降维,并对降维参数进行低位量化,降低需要存储模型参数的存储量。
2.如权利要求1所述的低内存语音关键词检测方法,其特征在于,所述低内存语音关键词检测方法包括以下步骤:
步骤一,采集待检测的关键词以及非关键词的语音,并对数据做好标签,将采集到的语音分为训练集,测试集以及验证集;
步骤二,对语音信号做预处理,提取语音信号的梅尔倒谱系数特征,得到m行N列的特征矩阵F,其中m是梅尔倒谱系数特征矢量的维度,N是语音信号分帧总数;
步骤三,构建关注和时序卷积TACRNN模型,该模型包含卷积网络、循环网络、注意力机制、三层全连接层、softmax分类器五部分,其中softmax分类器的输出是计算出输入的语音为关键词的概率;
步骤四,将F作为模型的输入,通过softmax得到的关键词概率作为输出;
步骤五,以交叉熵作为模型的损失函数,利用梯度下降算法训练网络,直到模型的损失函数收敛,同时验证集达到最优时停止训练;
步骤六,提取出停止训练后三层全连接每层的权重矩阵Wc=[W1,W2,W3],其中W1表示第一层全连接层的权重矩阵,W2表示第二层全连接层的权重矩阵,W3表示第三层全连接层的权重矩阵;
步骤七,初始化SVD分解特征数量的k;
步骤八,初始化全连接层中存储每个参数的比特数b;
步骤九,设置计数器c=1;
步骤十,对全连接的权重矩阵Wc进行SVD分解;
步骤十一,根据SVD的性质以及Uc、Vc、Λc、特征数量k得到对应的URc、VRc、ΛRc;
步骤十二,分别对URc、VRc、ΛRc进行低位表示;
步骤十三,计数器c=c+1;
步骤十四,当计数器c大于3时,执行步骤十五,否则执行步骤十;
步骤十五,存储模型中三层全连接层权重矩阵的低位表示UR_Li、VR_Li、ΛR_Li,i=1,2,3,替换权重矩阵[W1,W2,W3]的存储,降低所需内存。
3.如权利要求2所述的低内存语音关键词检测方法,其特征在于,所述步骤十,对全连接的权重矩阵Wc进行SVD分解,形式如下:
Wc=UcΛcVc;
其中:Uc和Vc均为正交矩阵,有和Uc和Vc分别称为Wc的左奇异矩阵和右奇异矩阵;Λc为如下形式的矩阵:
其中δ1>δ2,,,>δm分别为Wc的从大到小排列的奇异值,矩阵的维度分别为Uc∈Rm*m,Λc∈Rm*n,Vc∈Rn*n。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西安电子科技大学,未经西安电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110227395.9/1.html,转载请声明来源钻瓜专利网。