[发明专利]一种适用于卷积神经网络的方言数据库建立方法在审
申请号: | 201711349357.0 | 申请日: | 2017-12-15 |
公开(公告)号: | CN108170735A | 公开(公告)日: | 2018-06-15 |
发明(设计)人: | 李子煜;董志芳 | 申请(专利权)人: | 东南大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06N3/04;G10L17/00;G10L17/18;G10L17/04 |
代理公司: | 南京苏高专利商标事务所(普通合伙) 32204 | 代理人: | 向文 |
地址: | 210018 江*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 卷积神经网络 方言 声谱图 数据库 音频文件 放入 数据库建立 学习算法 分类 白边 可用 频谱 去除 标签 搜集 工程师 测试 转换 转化 图片 | ||
本发明公开了一种适用于卷积神经网络的方言频谱数据库的建立方法,通过搜集现有各省市的方言音频;使用MATLAB处理音频文件,将其转化为声谱图;使用Photoshop去除声谱图的白边并将其转换为大小可以直接放入经典卷积神经网络进行训练与测试的图片尺寸;按照省市将声谱图分类,打上标签于音频文件一起,构成方言数据库。本发明建立的可用于卷积神经网络的方言数据库能够直接放入经典卷积神经网络中训练,方便深度学习算法工程师等根据本发明建立的方言数据库进行基于卷积神经网络的方言分类。
技术领域
本发明属于图像处理与数据库构建技术领域,具体涉及一种适用于卷积神经网络的方言数据库建立方法。
背景技术
近年来,随着硬件计算能力的提升、理论的发展、以及大数据的来临,卷积神经网络得到了广泛研究,一些卷积神经网络的模型被用于图像、语音的训练识别,并取得了很好的效果。由于GPU的引入,以前很复杂的模型现在通过并行计算能很容易地被训练,大大缩短了训练调参的周期,提高了卷积神经网络的实用性。另一方面,语音分类与识别也在飞速发展且应用领域广泛,包括语音输入系统、语音控制系统以及身份识别等,因此,使用卷积神经网络进行语音分类与识别成为一个热点。
卷积神经网络需要庞大的训练集与测试集来完成模型的训练,而且由于其结构属性,卷积神经网络对图像的分类最为准确,所以在图像识别与分类方面有较为成熟的经典卷积神经网络模型。然而,目前没有可以完整的、系统的、图像形式的方言数据集可供学习,绝大部分方言数据集只有音频文件,不能直接放入经典卷积神经网络进行训练。
发明内容
发明目的:为了克服现有技术中存在的不足,提供一种适用于卷积神经网络的方言数据库的建立方法,搜集系统的、全面的中国各地方言音频,再将其转化为声谱图,经过调整大小等处理后得到可以直接放入经典卷积神经网络进行训练的方言数据集。
技术方案:为实现上述目的,本发明提供一种适用于卷积神经网络的方言数据库建立方法,包括如下步骤:
步骤1:搜集各省市的方言音频;
步骤2:使用MATLAB将步骤1中采集的方言音频文件批量转化为声谱图并且自动保存至预设的目标文件夹;
步骤3:使用修图工具将步骤2中转化得到的声谱图去掉白边,转换为大小可以直接放入卷积神经网络中进行训练与测试的图片尺寸;
步骤4:为步骤3中处理后的声谱图打上标签,与音频文件一起分类,得到可用于卷积神经网络的方言数据库。
进一步地,所述步骤1中方言音频包括常用单字、常用词汇、数字、自由话题四部分。
进一步地,所述步骤2中得到的声谱图包含时间、频率和音频强度信息。
进一步地,所述步骤4中处理后的常用单字、常用词汇、数字、自由话题四部分声谱图以及音频文件,每部分分别按照省市进行分类,每部分内使用序号命名作为标签,最后附序号对应的单字、词汇、数字与自由话题的文本。
进一步地,所述步骤2中使用strcat函数等函数配合循环,实现MATLAB自动依次读取音频文件夹中音频文件。
进一步地,所述步骤3中修图工具为Photoshop,使用Photoshop中的“创建新组”功能实现批量处理的功能,包括:裁剪去白边、调整图像大小、保存到统一路径,实现声谱图的批量处理。
基于MATLAB进行声谱图的批量转化,包括:
1)使用for语句构建循环;
2)使用strcat函数获得音频文件的目录;
3)使用audioread函数读取音频文件;
4)使用spectrogram函数将音频文件转化为声谱图;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于东南大学,未经东南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711349357.0/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种智能化运维机器人
- 下一篇:一种基于循环注意力机制的文档快速扫描定性方法