[发明专利]一种基于神经网络的语音指令及身份识别方法有效

申请号：	202011128448.3	申请日：	2020-10-21
公开（公告）号：	CN112233668B	公开（公告）日：	2023-04-07
发明（设计）人：	吕帮俊;曹威;彭利坤;黄斌;何曦光;陈佳	申请（专利权）人：	中国人民解放军海军工程大学
主分类号：	G10L15/16	分类号：	G10L15/16;G10L15/26;G10L17/18;G10L25/24
代理公司：	北京天盾知识产权代理有限公司 11421	代理人：	杨本官
地址：	430033 ***	国省代码：	湖北;42
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于神经网络语音指令身份识别方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明属于语音及指令信息的处理技术领域，尤其涉及一种基于神经网络的语音指令及身份识别方法。包括数据集的获取及神经网络的设计与构建；用于构建语音识别拼音转文字数据集的步骤；所述身份识别数据集采用如下方式建立：对前述步骤2中获取的语音数据进行MFCC特征提取，并以该MFCC特征为基础数据建立身份识别的数据集；构建语音指令及身份识别数据集神经网络；本申请解决了在专业领域，对语音数据和人员进行双重识别的需求；本发明的语音识别速度与DFCNN模型几乎相同，但准确率的提升率超过8％，更适应于指令化语言的快速识别和分析，能够有效提高指令考核、中枢指挥机构等专业场景的反应速度和准确度。

技术领域

本发明属于语音及指令信息的处理技术领域，尤其涉及一种基于神经网络的语音指令及身份识别方法。

背景技术

现在正处于一个人工智能飞速发展的时代，语音识别技术在各行各业中应用的越来越多，其中科大讯飞的语音识别技术尤为突出，在大部分场景下都有较好的表现。但是针对一些专用场景，要求不仅能够识别出人到底说出了什么话，还需要分辨出是哪个人说出的语音，此时科大讯飞的语音识别技术的表现就不够理想。为了适应这种专用场景的需求，需要一种新的特殊性的语音识别技术识别语音和说话者，本发明就是在这样的背景下产生的。

发明内容

一种基于神经网络的语音指令及身份识别方法，通过神经网络将语音中的指令及人员身份识别出来，从而省去了对指令及人员身份的手工输入，使得如训练等场景的操作更加方便快捷，效率得到提升。

为实现上述目的，本发明创造采用如下技术方案。

一种基于神经网络的语音指令及身份识别方法，包括数据集的获取及神经网络的设计与构建；

步骤1，用于构建语音识别拼音转文字数据集的步骤；包括，确定当前场景需要识别的所有语句，确定语句文字和对应拼音，所述语句文字应涵盖所有需要识别的语句中的文字；基于前述语句文字和对应拼音分别构建出文字列表和拼音列表，即可通过这两个表将每个文字和拼音转换为整数值；最后将所有的语句的拼音和文字转换为整数值，并以拼音的整数列表作为基础数据建立拼音转文字的数据集；

步骤2，用于获取身份及语音识别基础数据的步骤；包括，确定当前场景需要识别的人员身份，以其名字或ID作为识别标签，分别让所有人员录制前述步骤1中的所有语句；

步骤3，用于构建身份及语音语句识别数据集的步骤；所述语音语句识别数据集采用如下方式建立：对前述步骤2中获取的语音数据进行分帧、加窗和快速傅里叶变换，得到相应的语音时频特征，并以该语音时频特征为基础数据建立语音语句识别的数据集；

所述身份识别数据集采用如下方式建立：对前述步骤2中获取的语音数据进行MFCC特征提取，并以该MFCC特征为基础数据建立身份识别的数据集；

步骤4，构建语音指令及身份识别数据集神经网络；

所述语音指令及身份识别数据集神经网络的设计包含以下步骤：

步骤4.1，确定网络层数，以及每层神经元数量；

步骤4.2，确定神经网络的超参数，包括学习率和迭代次数；

步骤4.3，确定神经网络的相关函数，包括代价函数和激活函数；

步骤4.4，依序构建出语音指令识别数据集的E-DFCNN神经网络、Transformer模型数据集神经网络和身份识别数据集的双层LSTM神经网络。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于中国人民解放军海军工程大学，未经中国人民解放军海军工程大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】