[发明专利]一种声码器子带清浊音判决的方法及系统在审

申请号：	201910800619.3	申请日：	2019-08-28
公开（公告）号：	CN110580920A	公开（公告）日：	2019-12-17
发明（设计）人：	颜夕宏;张生平;王主磊;吴子晧;颜明	申请（专利权）人：	南京梧桐微电子科技有限公司
主分类号：	G10L25/93	分类号：	G10L25/93;G10L25/30;G10L19/087
代理公司：	32224 南京纵横知识产权代理有限公司	代理人：	董建林
地址：	210042 江苏省南京市玄***	国省代码：	江苏;32
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	子带卷积分类结果语音分类处理模块输入语音网络训练集编码传输图像矩阵网络输出有效特征语音信号准确度输出声码器频谱标注判决转换学习
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种声码器子带清浊音判决的方法，其特征在于，获取每帧语音以及标注每帧语音的子带清浊音分类结果，将获取的所有帧的语音以及所有的子带清浊音分类结果输入至处理模块，所述处理模块处理后得到深度卷积网络的输入输出训练集，通过所述输入输出训练集训练生成深度卷积网络；获取输入语音，将所述输入语音转换为图像矩阵作为训练好的深度卷积网络的输入，训练好的深度卷积网络输出新的子带清浊音分类结果，对子带清浊音分类结果进行编码传输。

2.根据权利要求1所述的声码器子带清浊音判决的方法，其特征在于，所述每帧语音以及每帧语音的子带清浊音分类结果通过语音训练集按帧获取。

3.根据权利要求1所述的声码器子带清浊音判决的方法，其特征在于，所述处理模块的处理过程为：

将每帧语音做FFT变换得到幅值，将每帧语音得到的所有幅值排列为图像矩阵作为一个输入，每帧标注的子带清浊音分类结果作为一个输出，任意一帧语音得到的输入与该帧语音的子带清浊音分类结果得到的输出组成输入-输出对，所有帧的输入-输出对组成输入输出训练集；利用所述输入输出训练集离线训练生成深度卷积网络。

4.根据权利要求1所述的声码器子带清浊音判决的方法，其特征在于，所述深度卷积网络的网络结构采用LeNet-5卷积神经网络。

5.根据权利要求1所述的声码器子带清浊音判决的方法，其特征在于，按帧获取输入语音，将第一帧的输入语音做FFT变换得到幅值，将该帧的输入语音得到的所有幅值排列为图像矩阵作为训练好的深度卷积网络的输入，输出该帧输入语音的子带清浊音分类结果，送入量化器进行编码传输；再对下一帧的输入语音进行上述处理，直至最后一帧的输入语音进行编码传输。

6.根据权利要求3或5所述的声码器子带清浊音判决的方法，其特征在于，通过所述FFT变换得到1024个幅值，并将1024个幅值排列为32*32的图像矩阵。

7.一种声码器子带清浊音判决的系统，其特征在于，包括数据获取模块、数据处理模块、深度卷积网络生成模块、子带清浊音分类结果输出模块；

所述数据获取模块用于获取每帧语音以及标注每帧语音的子带清浊音分类结果，将获取的所有帧的语音以及所有的子带清浊音分类结果输入至处理模块；

所述数据处理模块用于得到深度卷积网络的输入输出训练集；

所述深度卷积网络生成模块用于根据输入输出训练集训练生成深度卷积网络；

所述子带清浊音分类结果输出模块用于获取输入语音，将所述输入语音转换为图像矩阵作为训练好的深度卷积网络的输入，训练好的深度卷积网络输出新的子带清浊音分类结果，对子带清浊音分类结果进行编码传输。

8.根据权利要求7所述的声码器子带清浊音判决的方法，其特征在于，所述数据获取模块通过语音训练集按帧获取每帧语音以及每帧语音的子带清浊音分类结果。

9.根据权利要求7所述的声码器子带清浊音判决的方法，其特征在于，所述数据处理模块包括转化模块、输入输出训练集组成模块以及深度卷积网络生成模块；

所述转化模块用于将每帧语音做FFT变换得到幅值，将每帧语音得到的所有幅值排列为图像矩阵作为一个输入，每帧标注的子带清浊音分类结果作为一个输出；

所述输入输出训练集组成模块用于任意一帧语音得到的输入与该帧语音的子带清浊音分类结果得到的输出组成输入-输出对，所有帧的输入-输出对组成输入输出训练集；

所述深度卷积网络生成模块用于利用所述输入输出训练集离线训练生成深度卷积网络。

10.根据权利要求7所述的声码器子带清浊音判决的方法，其特征在于，所述子带清浊音分类结果输出模块包括输入语音获取模块以及输入语音编码传输模块；