[发明专利]构建语音识别模型的方法、装置、设备和存储介质在审
申请号: | 201910884620.9 | 申请日: | 2019-09-19 |
公开(公告)号: | CN110751944A | 公开(公告)日: | 2020-02-04 |
发明(设计)人: | 王健宗;贾雪丽 | 申请(专利权)人: | 平安科技(深圳)有限公司 |
主分类号: | G10L15/06 | 分类号: | G10L15/06;G10L15/16;G10L15/26;G10L25/18 |
代理公司: | 11321 北京市京大律师事务所 | 代理人: | 刘挽澜 |
地址: | 518033 广东省深圳市福田区福*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 语音识别 目标模型 神经元 训练语音 音信息 构建 卷积 人工智能领域 自然语言处理 存储介质 模型识别 文本标签 信息输入 语音信息 客户端 连接层 输出层 运算量 残差 音调 样本 文本 预测 更新 评估 申请 部署 | ||
1.一种构建语音识别模型的方法,其特征在于,所述方法包括:
获取多个训练语音样本,所述训练语音样本包括语音信息以及与语音信息对应的文本标签;
通过独立卷积层、卷积残差层、全连接层以及输出层构建语音识别模型,所述卷积残差层包括多个顺次连接的残差堆叠层,所述残差堆叠层包含多个顺次连接的残差模块,所述残差模块包含多个顺次连接的隐藏层以及旁路于多个顺次连接的权值层的旁路通道;
将多个所述语音样本依次输入至所述语音识别模型,将所述语音信息及将所述语音信息对应的文本标签分别作为所述语音识别模型的输入以及输出,通过所述输入以及所述输出不断训练所述语音识别模型的神经元权值,直至所述语音样本均已输入至所述语音识别模型,结束对所述语音识别模型的训练,所述训练结束后,将带有训练好神经元权值的所述语音识别模型作为目标模型;
通过L(S)=-lnΠ(h(x),z)∈Sp(z|h(x))=-∑(h(x),z)∈Sln p(z|h(x))评估所述目标模型的误差,其中,L(S)为所述误差,x为所述语音信息,z为所述文本标签,p(z|h(x))为所述预测文本与所述文本标签的相似度,S为所述多个训练语音样本,所述预测文本是指所述语音信息输入至所述目标模型后,由所述目标模型根据神经元权值计算输出的文本信息;
调整所述目标模型的神经元的权值,直至所述误差小于阈值,将所述误差小于阈值的神经元权值设为理想权值;
将所述目标模型以及所述理想权值部署至客户端。
2.根据权利要求1所述的方法,其特征在于,所述将多个所述语音样本输入至所述语音识别模型之前,所述方法还包括:
根据预设的分帧参数分帧处理所述训练语音信息,得到与所述训练语音信息对应的语句,所述预设分帧参数包括帧时长、帧数和前后帧重复时长;
根据预设的二维参数和滤波器组的特征提取转化为所述语句,得到二维语音信息。
3.根据权利要求2所述的方法,其特征在于,所述根据预设的分帧参数分帧处理所述训练语音信息,包括:
对所述二维语音信息进行离散傅里叶变换,以得到所述二维语音信息对应的线性频谱X(k);
通过预设的带通滤波器对所述线性频谱滤波,以得到目标线性频谱,当所述带通滤波器的中心频率为f(m)时,则所述带通滤波器的传递函数为:所述f(m)的表达式为:
所述带通滤波器包括多个具有三角形滤波特性的带通滤波器,所述fl为所述带通滤波器频率范围的最低频率,所述fh为所述带通滤波器频率范围的最高频率,所述N为DFT时的长度,所述fs为所述带通滤波器的采样频率,所述Fmel函数为Fmel=1125ln(1+f/70),所述Fmel的逆函数为:b为整数;
根据0≤m≤M计算所述目标线性频谱对应的对数能量,得到语谱图,所述X(k)为所述线性频谱。
4.根据权利要求1所述的方法,其特征在于,所述全连接层包括分类函数,所述分类函数是指所述j为自然数,所述分类函数将卷积残差层输出的K维的语音频域信号向量z压缩到另一个K维实向量δ(z)j,使得每一个元素的范围都在(0,1)之间,并且所有元素的和为1。
5.根据权利要求1所述的方法,其特征在于,所述残差模块的输入为x,所述输出残差模块的输出为y,所述残差模块的数学表达式为:
y=F(x,wi)+wsx,所述F(x,wi)为所述独立卷积层的输出,所述ws为所述残差模块的权值。
6.根据权利要求5所述的方法,其特征在于,所述F(x,wi)的采用ReLU函数作为所述独立卷积层的激活函数,所述ReLU函数的数学表达式为ReLU(x)=max(0,x)。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于平安科技(深圳)有限公司,未经平安科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910884620.9/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种语音情绪识别方法、装置以及相关设备
- 下一篇:一种端到端的语音识别方法