[发明专利]一种语音控制准确率的调整方法及系统在审
申请号: | 201910030821.2 | 申请日: | 2019-01-14 |
公开(公告)号: | CN109448726A | 公开(公告)日: | 2019-03-08 |
发明(设计)人: | 李庆湧 | 申请(专利权)人: | 李庆湧 |
主分类号: | G10L15/22 | 分类号: | G10L15/22;G10L15/16;G10L15/06 |
代理公司: | 深圳余梅专利代理事务所(特殊普通合伙) 44519 | 代理人: | 井杰;高真辉 |
地址: | 518052 广东省深圳市前海深港合作区前*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 准确率 语音控制 匹配 神经网络模型 预处理 控制信号输入 语音控制指令 调整模式 神经网络 受控设备 特征提取 网络模型 信号执行 用户启动 用户语音 语音识别 初始化 预存 送入 监控 分类 改进 网络 | ||
1.一种语音控制准确率的调整方法,包括步骤:
S1:根据语音控制的特点,选择特定的神经网络模型,采集用户的语音信息经特征提取后对模型进行训练,使用已经训练好的参数对网络的权值初始化;根据控制系统的功能和控制需求,设置语音控制指令集;
S2:监听用户命令;
S3:获取用户语音控制信号,对该信号执行预处理步骤;
S4:将预处理后的用户语音控制信号作为输入,经过特征提取后,送入训练好的神经网络中,得到分类的识别结果即用户的语音控制命令;
S5:判断该识别结果与系统预存的语音控制指令是否匹配,当用户语音控制命令与预存的控制指令匹配时,系统控制执行部件执行相应的控制操作;不匹配时,计算语音控制准确率;
S6:当语音控制准确率低于预定值或用户启动调整过程时,系统进入准确率调整模式,执行步骤S7;否则,跳转到步骤S2;
S7:系统输出标准语段,提示用户跟读,系统采集用户语音输入,对模型进行训练;再次测量语音控制准确率,当准确率高于阈值时,结束调整过程;若准确率低于阈值,重复调整过程。
2.根据权利要求1所述的一种语音控制准确率的调整方法,其特征在于,步骤S2具体为:
获得所在环境声音信号,将时域信号转化为频域信号,计算信号的能量谱;将信号的能量谱与背景噪声能量谱比较,判断是否存在用户语音控制信号输入;若存在用户语音控制信号输入,执行之后步骤;否则,继续监听环境声音信号;
步骤S3中预处理步骤包括:抗混叠滤波步骤;预加重步骤;加窗分帧步骤和端点检测步骤。
3.根据权利要求1所述的一种语音控制准确率的调整方法,其特征在于,步骤S3对信号执行预处理步骤具体为:
抗混叠滤波步骤:设低通滤波器的截止频率为fc,它与采用频率fs的关系为:
预加重步骤:将语音信号通过一个预加重滤波器,其中预加重滤波器的传递函数公式如下:H(z)=1-az-1式中,a为预加重系数,是预加重前的语音信号,T(n)是经过预加重滤波器后得到的信号,其关系可用一阶差分方程表示如下:系数a取0.95;
加窗分帧步骤:将采集到的语音信号分为短时的语音片段进行分析,片段长度为10ms~30ms,为抑制分帧产生的Gibbs效应,利用汉宁窗在语音信号上进行滑动将语音信号分成若干帧;
端点检测步骤:计算每帧信号的短时过零率和短时平均能量;设语音信号的前m帧为静音段,计算噪声的平均能量和平均过零率;分别为短时平均能量设置高低两个门限,给短时过零率设置一个阈值;用之前设置的高低门限确定语音信号的起始点和终止点,然后再用短时过零率进行修正。
4.根据权利要求1所述的一种语音控制准确率的调整方法,其特征在于,步骤S4中特征提取步骤具体为:
对预处理后的语音信号进行FFT变换得到频谱;对得到的频谱进行平方运算,再将得到的能量谱通过若干Mel带通滤波器进行滤波;将信号通过Mel滤波器后再对其取对数,获得相应的对数功率谱;最后再对得到的功率谱进行DCT反离散余弦变换,即可得到MFCC特征提取系数,若对其做一阶和二阶差分,可以得到动态MFCC特征参数。
5.根据权利要求1所述的一种语音控制准确率的调整方法,其特征在于,步骤S4中:
使用Softmax分类器对语音输入信号进行概率判断,选取输出值最大的神经元所对应的类别作为分类的识别结果。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于李庆湧,未经李庆湧许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910030821.2/1.html,转载请声明来源钻瓜专利网。