[发明专利]一种驾驶员语音口令识别检测方法在审
申请号: | 202211638533.3 | 申请日: | 2022-12-20 |
公开(公告)号: | CN115985316A | 公开(公告)日: | 2023-04-18 |
发明(设计)人: | 纪刚;周粉粉;臧强 | 申请(专利权)人: | 青岛联合创智科技有限公司 |
主分类号: | G10L15/22 | 分类号: | G10L15/22;G06F18/10;G06F18/2131;G06F18/24;G10L21/0316;G10L19/02;G10L25/30;G10L25/24;G10L25/48 |
代理公司: | 青岛高晓专利事务所(普通合伙) 37104 | 代理人: | 于正河 |
地址: | 266200 山东省*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 驾驶员 语音 口令 识别 检测 方法 | ||
1.一种驾驶员语音口令识别检测方法,其特征在于:具步骤如下:
步骤一:预处理
对采集到的声音信号进行预处理,将驾驶员说出的语音口令从原始信号中提取出来;对采集的语音进行去噪:首先使用短时傅里叶变换将音频信号转换到频域,采用小波去噪算法对收集的语音信息进行去噪处理,得到语音文件;
步骤二:语音特征提取
读取语音文件,得到声音信号的时域谱矩阵x(t);对语音文件数据进行分帧和汉明窗处理得到数据为x(frame_len,N),N为帧的数量,其中设置25ms为一帧,每一帧的长度设置为frame_len=400,同时为保证帧与帧之间平滑过渡保持连续性,设置帧与帧之间的重叠长度overlap_len=160;对N帧进行循环处理,每一帧进行汉明窗处理后,进行快速傅里叶变换得到频域数据的振幅,这样每一帧处理后的数据在时间上堆叠起来就能够得到声谱特征;
步骤三:语音识别模型对声谱特征进行加工识别
将步骤二中得到的声谱特征输入语音识别模型,输入特征数据的尺寸为(1600,200,1);(1600,200,1)中1600指输入的音频的长度,200指输出音频的特征的长度,1指输入的音频的数量,输入为1个音频数量;经过语音识别模型结构处理后输出结果数据,结果数据输出的尺寸为(200,1428);
步骤四:语音口令正确度判断
将语音识别模型输出的结果数据对应到由文字库字典获取指定的文字内容,将语音对应的文字内容拼接成一句文字内容语句;该文字内容语句与标准语句内容对比,准确率达到85%以上,即认为驾驶员所作的语音口令合格。
2.根据权利要求1所述的驾驶员语音口令识别检测方法,其特征在于:所述语音识别模型对声谱特征进行加工识别的具体过程为:
1)语音识别模型的构建:语音识别模型结构包括19层,每层网络结构为串联而成,当前层的输出作为下一层的输入;网络模型的每一层结构都是提取特征的过程,输入的数据经过层层网络结构传递,从抽象特征到具体特征,随着网络层数的增加,提取的特征更复杂详细,使语音识别模型最终的输出特征中能够得到具体的词或者词语;
2)、语音识别模型的训练:利用人工标注的语音数据对模型进行训练,语音数据包括语音文件、以及语音文件包含的文字内容;将语音数据输入模型进行特征提取,语音识别模型最终输出的结果是预测值,利用损失函数计算当前模型输出的结果与真实值的差距,进而指导、调整网络进行训练学习,一步步更新模型参数的过程,直到最终网络模型收敛,模型训练完毕;
3)、采集的驾驶员语音文件输入语音识别模型,语音识别模型输出结果数据,语音识别模型最终输出的结果数据尺寸为[200,1428],该数据包含预测的文字索引,因此能够直接从文字库中获取文字的内容。
3.根据权利要求2所述的驾驶员语音口令识别检测方法,其特征在于:所述损失函数计算是语音识别模型的组成部分,损失函数计算具体为:
语音识别模型采用CTC的损失函数,定义如下:
L(S)=-lnΠ(x,z)∈Sp(z|x)=-∑(x,z)∈Slnp(z|x)
其中p(z|x)代表给定输入样本x,输入样本x为语音识别模型真实的输入样本,输出序列为z的概率,S为训练集;应用该损失函数,给定输入样本x,输出正确标签的概率乘积,输入结果越小,准确度越高。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于青岛联合创智科技有限公司,未经青岛联合创智科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211638533.3/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种辣椒的种植方法
- 下一篇:一种低氧铝钼钨钛中间合金及其制备方法