[发明专利]一种从语音到图像的生成方法及系统有效

申请号：	202110472904.4	申请日：	2021-04-29
公开（公告）号：	CN113127622B	公开（公告）日：	2023-06-09
发明（设计）人：	杨鸿武;陈思成	申请（专利权）人：	西北师范大学
主分类号：	G06F16/332	分类号：	G06F16/332;G06F16/33;G06F16/36;G06F17/14;G06N3/0464;G06N3/08
代理公司：	北京高沃律师事务所 11569	代理人：	刘凤玲
地址：	730070 ***	国省代码：	甘肃;62
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种语音图像生成方法系统
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种从语音到图像的生成方法，其特征在于，所述方法包括：

获取训练数据集；所述训练数据集包括中文语料库和Oxford-102flowers数据集；

对所述中文语料库进行预处理，得到语谱图；

利用所述语谱图对端到端卷积神经网络模型进行训练和优化，得到优化后的端到端卷积神经网络模型，具体包括：采用BN算法和CTC算法根据所述语谱图对端到端卷积神经网络模型进行训练和优化，得到优化后的端到端卷积神经网络模型；在训练过程中，加入BN，即BatchNormalization来减少训练过程中的过拟合，加快模型的收敛速度；BN算法像卷积层，池化层、激活层一样，也输入一层，BN层添加在激活函数前，对激活函数的输入进行归一化，这样解决了输入数据发生偏移和增大的影响，并且可以增加训练速度，防止过拟合；通过使用CTC，即ConnectionistTemporal Classification算法将输入序列映射到输出序列，输出单元为对应的汉字，即使用训练好的CTC-CNN模型将语音转化成汉字；CTC-CNN模型包含10层，步幅大小为2和内核大小为3的CNN和两个完全连接层，softmax输出层具有3092个输出节点；

利用所述Oxford-102flowers数据集对深度卷积生成对抗网络模型进行训练和优化，得到优化后的深度卷积生成对抗网络模型；

获取教师教学时的语音信号；

对所述语音信号进行所述预处理，得到教学语谱图；

将所述教学语谱图输入所述优化后的端到端卷积神经网络模型中，得到教学文本；

将所述教学文本输入所述优化后的深度卷积生成对抗网络模型中，生成教学图像。

2.根据权利要求1所述的从语音到图像的生成方法，其特征在于，所述对所述中文语料库进行预处理，得到语谱图，具体包括：

对所述中文语料库进行分帧操作，得到多个短时的语音段；

对每一所述语音段分别进行加窗操作，得到加窗后的各语音段；

对所述加窗后的各语音段分别进行快速傅立叶变换，得到各语音段的频谱；

对各语音段的频谱进行叠加，得到语谱图。

3.根据权利要求1所述的从语音到图像的生成方法，其特征在于，所述将所述教学文本输入所述优化后的深度卷积生成对抗网络模型中，生成教学图像，具体包括：

将所述教学文本与随机噪声共同输入所述优化后的深度卷积生成对抗网络模型中，通过所述优化后的深度卷积生成对抗网络模型生成与所述教学文本语义一致的教学图像。