[发明专利]一种面向硬件的深度脉冲神经网络语音识别方法和系统在审
申请号: | 202310110811.6 | 申请日: | 2023-01-16 |
公开(公告)号: | CN116259310A | 公开(公告)日: | 2023-06-13 |
发明(设计)人: | 袁孟雯;张宇豪;唐华锦;潘纲 | 申请(专利权)人: | 之江实验室;浙江大学 |
主分类号: | G10L15/06 | 分类号: | G10L15/06;G10L15/02;G10L15/16;G10L25/24;G10L25/30 |
代理公司: | 杭州天正专利事务所有限公司 33201 | 代理人: | 王兵;杨东炜 |
地址: | 311121 浙江*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 面向 硬件 深度 脉冲 神经网络 语音 识别 方法 系统 | ||
1.一种面向硬件的深度脉冲神经网络语音识别方法,其特征在于,包括以下步骤:
步骤一:获取开源语音数据集,并划分为训练以及测试数据集;
步骤二:对语音数据集进行预处理,从高维语音数据中获得低维语音特征,并将其编码为脉冲序列;
步骤三:构建深度脉冲神经网络模型,模型中各神经元均采用硬件友好的集成点火模型;
步骤四:构造损失函数,采用时空反传算法优化网络权值,在训练数据集上对深度脉冲神经网络模型进行训练,并保存更新后的网络权值;
步骤五:将浮点权值量化为定点权值,深度脉冲神经网络模型加载量化后的定点权值,对测试数据集进行识别,得到预测的分类标签,实现面向硬件的深度脉冲神经网络模型的语音识别。
2.根据权利要求1所述的一种面向硬件的深度脉冲神经网络语音识别方法,其特征在于,步骤一具体包括:获取audioMNIST开源语音数据集,划分出训练集和测试集。
3.根据权利要求1所述的一种面向硬件的深度脉冲神经网络语音识别方法,其特征在于,步骤二具体包括:
步骤2.1,对语音数据进行预处理,首先对语音数据进行预加重、分帧和加窗操作;接着对每一帧短时分析窗,通过快速傅里叶变换得到对应的频谱;然后将得到的频谱通过Mel滤波器组得到Mel频谱;最后对Mel频谱取对数、进行离散余弦变换,获得Mel频率倒谱系数作为语音特征;
步骤2.2,对语音特征进行编码,设置总的仿真时间步为T,在每个时间步,若频谱特征大于服从均匀分布生成的随机概率,该时间步产生脉冲,值为1,否则为0,由此将频谱特征的实数值编码为由0,1离散值表示的脉冲序列。
4.根据权利要求1所述的一种面向硬件的深度脉冲神经网络语音识别方法,其特征在于,步骤三具体包括:
步骤3.1,所述构建的深度脉冲神经网络模型包含一层输入层,N层隐藏层以及一层输出层,层间采用全连接。输入层用于接受编码后的脉冲序列;隐藏层用于学习输入脉冲序列中蕴含的特征;输出层用于识别语音类别,一个神经元代表一类语音,对于每个输入样本,计算仿真时间步内输出层每个神经元的脉冲发放率,脉冲发放率最高的那个神经元所代表的类别即为预测标签;
步骤3.2,模型中隐藏层和输出层的神经元均采用集成点火模型,神经元的膜电位按如下公式计算:
其中,是第n层神经元i在t时刻的膜电位,是第n层神经元i在t-1时刻的膜电位,是第n层神经元i在t-1时刻的输出,是第n-1层神经元j到第n层神经元i的突触权重,是第n-1层神经元j在t时刻的输出,Vth是神经元的阈值。
5.根据权利要求1所述的一种面向硬件的深度脉冲神经网络语音识别方法,其特征在于,步骤四具体包括:
步骤4.1,构造均方误差损失函数计算公式如下:
其中,y是训练样本的标签,是统计的输出层神经元的脉冲发放率,T是总的仿真时间步;
步骤4.2,采用时空反传算法将所述误差通过各层集成点火模型膜电位之间的时空关系分配到每层神经元的权值上,以优化网络权值,损失对网络权值的梯度为:
其中为损失函数对膜电位的导数,其计算可分为n为输出层以及n为隐藏层两种情况,1)当n为输出层时:
2)当n为隐藏层时:
其中,h(Vn(t))是的梯度替代函数;
步骤4.3,在训练集上对深度脉冲神经网络模型进行训练,并保存训练后得到的网络权值。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于之江实验室;浙江大学,未经之江实验室;浙江大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202310110811.6/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种医疗脱水机旋转阀体
- 下一篇:一种基于文丘里室的漆雾处理系统及处理方法