[发明专利]一种适用于卷积神经网络的方言数据库建立方法在审
申请号: | 201711349357.0 | 申请日: | 2017-12-15 |
公开(公告)号: | CN108170735A | 公开(公告)日: | 2018-06-15 |
发明(设计)人: | 李子煜;董志芳 | 申请(专利权)人: | 东南大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06N3/04;G10L17/00;G10L17/18;G10L17/04 |
代理公司: | 南京苏高专利商标事务所(普通合伙) 32204 | 代理人: | 向文 |
地址: | 210018 江*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种适用于卷积神经网络的方言频谱数据库的建立方法,通过搜集现有各省市的方言音频;使用MATLAB处理音频文件,将其转化为声谱图;使用Photoshop去除声谱图的白边并将其转换为大小可以直接放入经典卷积神经网络进行训练与测试的图片尺寸;按照省市将声谱图分类,打上标签于音频文件一起,构成方言数据库。本发明建立的可用于卷积神经网络的方言数据库能够直接放入经典卷积神经网络中训练,方便深度学习算法工程师等根据本发明建立的方言数据库进行基于卷积神经网络的方言分类。 1 | ||
搜索关键词: | 卷积神经网络 方言 声谱图 数据库 音频文件 放入 数据库建立 学习算法 分类 白边 可用 频谱 去除 标签 搜集 工程师 测试 转换 转化 图片 | ||
【主权项】:
1.一种适用于卷积神经网络的方言数据库建立方法,其特征在于:包括如下步骤:
步骤1:搜集各省市的方言音频;
步骤2:使用MATLAB将步骤1中采集的方言音频文件批量转化为声谱图并且自动保存至预设的目标文件夹;
步骤3:使用修图工具将步骤2中转化得到的声谱图去掉白边,转换为大小可以直接放入卷积神经网络中进行训练与测试的图片尺寸;
步骤4:为步骤3中处理后的声谱图打上标签,与音频文件一起分类,得到可用于卷积神经网络的方言数据库。
2.根据权利要求1所述的一种适用于卷积神经网络的方言数据库建立方法,其特征在于:所述步骤1中方言音频包括常用单字、常用词汇、数字、自由话题四部分。3.根据权利要求1所述的一种适用于卷积神经网络的方言数据库建立方法,其特征在于:所述步骤2中得到的声谱图包含时间、频率和音频强度信息。4.根据权利要求1所述的一种适用于卷积神经网络的方言数据库建立方法,其特征在于:所述步骤3中经过处理后得到的声谱图的图片尺寸为227*227或者224*224。5.根据权利要求2所述的一种适用于卷积神经网络的方言数据库建立方法,其特征在于:所述步骤4中处理后的常用单字、常用词汇、数字、自由话题四部分声谱图以及音频文件,每部分分别按照省市进行分类,每部分内使用序号命名作为标签,最后附序号对应的单字、词汇、数字与自由话题的文本。6.根据权利要求1所述的一种适用于卷积神经网络的方言数据库建立方法,其特征在于:所述步骤2中使用strcat函数等函数配合循环,实现MATLAB自动依次读取音频文件夹中音频文件。7.根据权利要求1所述的一种适用于卷积神经网络的方言数据库建立方法,其特征在于:所述步骤3中修图工具为Photoshop。8.根据权利要求7所述的一种适用于卷积神经网络的方言数据库建立方法,其特征在于:所述步骤3中使用Photoshop中的“创建新组”功能实现批量处理的功能,包括:裁剪去白边、调整图像大小、保存到统一路径,实现声谱图的批量处理。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于东南大学,未经东南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201711349357.0/,转载请声明来源钻瓜专利网。
- 上一篇:一种智能化运维机器人
- 下一篇:一种基于循环注意力机制的文档快速扫描定性方法