[发明专利]一种声码器子带清浊音判决的方法及系统在审
申请号: | 201910800619.3 | 申请日: | 2019-08-28 |
公开(公告)号: | CN110580920A | 公开(公告)日: | 2019-12-17 |
发明(设计)人: | 颜夕宏;张生平;王主磊;吴子晧;颜明 | 申请(专利权)人: | 南京梧桐微电子科技有限公司 |
主分类号: | G10L25/93 | 分类号: | G10L25/93;G10L25/30;G10L19/087 |
代理公司: | 32224 南京纵横知识产权代理有限公司 | 代理人: | 董建林 |
地址: | 210042 江苏省南京市玄*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 子带 卷积 分类结果 语音 分类 处理模块 输入语音 网络 训练集 编码传输 图像矩阵 网络输出 有效特征 语音信号 准确度 输出 声码器 频谱 标注 判决 转换 学习 | ||
1.一种声码器子带清浊音判决的方法,其特征在于,获取每帧语音以及标注每帧语音的子带清浊音分类结果,将获取的所有帧的语音以及所有的子带清浊音分类结果输入至处理模块,所述处理模块处理后得到深度卷积网络的输入输出训练集,通过所述输入输出训练集训练生成深度卷积网络;获取输入语音,将所述输入语音转换为图像矩阵作为训练好的深度卷积网络的输入,训练好的深度卷积网络输出新的子带清浊音分类结果,对子带清浊音分类结果进行编码传输。
2.根据权利要求1所述的声码器子带清浊音判决的方法,其特征在于,所述每帧语音以及每帧语音的子带清浊音分类结果通过语音训练集按帧获取。
3.根据权利要求1所述的声码器子带清浊音判决的方法,其特征在于,所述处理模块的处理过程为:
将每帧语音做FFT变换得到幅值,将每帧语音得到的所有幅值排列为图像矩阵作为一个输入,每帧标注的子带清浊音分类结果作为一个输出,任意一帧语音得到的输入与该帧语音的子带清浊音分类结果得到的输出组成输入-输出对,所有帧的输入-输出对组成输入输出训练集;利用所述输入输出训练集离线训练生成深度卷积网络。
4.根据权利要求1所述的声码器子带清浊音判决的方法,其特征在于,所述深度卷积网络的网络结构采用LeNet-5卷积神经网络。
5.根据权利要求1所述的声码器子带清浊音判决的方法,其特征在于,按帧获取输入语音,将第一帧的输入语音做FFT变换得到幅值,将该帧的输入语音得到的所有幅值排列为图像矩阵作为训练好的深度卷积网络的输入,输出该帧输入语音的子带清浊音分类结果,送入量化器进行编码传输;再对下一帧的输入语音进行上述处理,直至最后一帧的输入语音进行编码传输。
6.根据权利要求3或5所述的声码器子带清浊音判决的方法,其特征在于,通过所述FFT变换得到1024个幅值,并将1024个幅值排列为32*32的图像矩阵。
7.一种声码器子带清浊音判决的系统,其特征在于,包括数据获取模块、数据处理模块、深度卷积网络生成模块、子带清浊音分类结果输出模块;
所述数据获取模块用于获取每帧语音以及标注每帧语音的子带清浊音分类结果,将获取的所有帧的语音以及所有的子带清浊音分类结果输入至处理模块;
所述数据处理模块用于得到深度卷积网络的输入输出训练集;
所述深度卷积网络生成模块用于根据输入输出训练集训练生成深度卷积网络;
所述子带清浊音分类结果输出模块用于获取输入语音,将所述输入语音转换为图像矩阵作为训练好的深度卷积网络的输入,训练好的深度卷积网络输出新的子带清浊音分类结果,对子带清浊音分类结果进行编码传输。
8.根据权利要求7所述的声码器子带清浊音判决的方法,其特征在于,所述数据获取模块通过语音训练集按帧获取每帧语音以及每帧语音的子带清浊音分类结果。
9.根据权利要求7所述的声码器子带清浊音判决的方法,其特征在于,所述数据处理模块包括转化模块、输入输出训练集组成模块以及深度卷积网络生成模块;
所述转化模块用于将每帧语音做FFT变换得到幅值,将每帧语音得到的所有幅值排列为图像矩阵作为一个输入,每帧标注的子带清浊音分类结果作为一个输出;
所述输入输出训练集组成模块用于任意一帧语音得到的输入与该帧语音的子带清浊音分类结果得到的输出组成输入-输出对,所有帧的输入-输出对组成输入输出训练集;
所述深度卷积网络生成模块用于利用所述输入输出训练集离线训练生成深度卷积网络。
10.根据权利要求7所述的声码器子带清浊音判决的方法,其特征在于,所述子带清浊音分类结果输出模块包括输入语音获取模块以及输入语音编码传输模块;
所述输入语音获取模块用于按帧获取输入语音;
所述输入语音编码传输模块用于将第一帧的输入语音做FFT变换得到幅值,将该帧的输入语音得到的所有幅值排列为图像矩阵作为训练好的深度卷积网络的输入,输出该帧输入语音的子带清浊音分类结果,送入量化器进行编码传输;再对下一帧的输入语音进行上述处理,直至最后一帧的输入语音进行编码传输。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京梧桐微电子科技有限公司,未经南京梧桐微电子科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910800619.3/1.html,转载请声明来源钻瓜专利网。