[发明专利]一种基于FPGA的实时声音分类方法及系统有效
申请号: | 202011239248.5 | 申请日: | 2020-11-09 |
公开(公告)号: | CN112397090B | 公开(公告)日: | 2022-11-15 |
发明(设计)人: | 肖卓凌;柴进;孟子杰;王志轩;阎波;袁子强 | 申请(专利权)人: | 电子科技大学 |
主分类号: | G10L25/51 | 分类号: | G10L25/51;G06N3/04;G10L25/03;G10L25/18;G10L25/30;G10L25/45 |
代理公司: | 北京正华智诚专利代理事务所(普通合伙) 11870 | 代理人: | 李林合 |
地址: | 611731 四川省成*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 fpga 实时 声音 分类 方法 系统 | ||
1.一种基于FPGA的实时声音分类方法,其特征在于,包括如下步骤:
S1、获取声音数字数据;
S2、提取所获取的声音数字数据中的声音特征,获得声音特征图;
S3、获取声音特征图进行分类计算,获取声音判断概率,具体方式为:
S31、对声音特征图进行填充,获得声音特征的填充特征图;
S32、将填充特征图经过卷积层计算后,通过激活函数再进行最大池化得到进一步的声音特征图;
S33、重复多次上述步骤得到三维的声音特征图,具体重复方式为:
将输入的MFSC声音特征图作为第一特征图,其特征图矩阵的边缘进行零填充,其目一是经过3*3卷积核之后可以保持特征图片大小不变,二是可以保留边缘信息,经过填充得到大小为162*66*1的第一填充特征图;
将第一填充特征图经过大小3*3卷积核计算,3*3的卷积核在特征图上滑动,并与其做乘加运算,得到的结果放在特征图的原位置,然后通过Relu6激活函数,对于特征图中小于0的数全部置0,大于6的数全部置6,其余保持不变;再进行最大池化,使用2*2的窗口在特征图上滑动,只保留每个窗口中的最大数,使得特征图的长和宽变为原来的一半,最后得到大小为80*32*64第二特征图,将第二特征图进行零填充,得到大小为82*34*64的第二填充特征图;
将第二特填充征图经过卷积计算,然后通过Relu6激活函数并进行最大池化,得到大小为40*16*128的第三特征图,将第三特征图进行零填充,得到大小为42*18*128的第三填充特征图;
将第三填充特征图经过卷积计算,然后通过Relu6激活函数并进行最大池化,得到大小为40*16*256的第四特征图,将第四特征图进行零填充,得到大小为42*18*256的第四填充特征图;
将第四填充特征图经过卷积计算,然后通过Relu6激活函数并进行最大池化,得到大小为20*8*256的第五特征图,将第五特征图进行零填充,得到大小为22*10*256的第五填充特征图;
将第五填充特征图经过卷积计算,然后通过Relu6激活函数并进行最大池化,得到大小为20*8*256的第六特征图,将第六特征图进行零填充,得到大小为22*10*256的第六填充特征图;
将第六填充特征图经过大小为1*1*128的卷积核计算,然后通过Relu6激活函数并进行最大池化,得到大小为1*8*512的第七特征图,将第七特征图经过卷积计算然后通过Relu6激活函数,得到大小为1*8*128的第八特征图;
将第八特征图经过1*1*128的卷积核计算,并通过激活函数得到大小为1*8*64的第九特征图;
S34、将三维的声音特征图各通道首尾相连,降维形成声音特征数据,具体方式为:
将第九特征图各通道首尾相接,使其由三维降至二维,形成大小为1*512*1的第十特征图;
S35、将声音特征数据通过全连接层,获取不同声音判决的概率,具体方式为:将第十特征图通过全连接层得到6个数值,然后经过sigmoid函数输出6个在0、1之间的事件发生的概率;
S4、根据声音判决最大的概率得到声音的分类结果,具体判决方式为:
根据步骤S35得到三种不同声音判决的概率,其中最大的概率即为声音分类的结果。
2.根据权利要求1所述的一种基于FPGA的实时声音分类方法,其特征在于,所述声音特征的提取过程包括:
S21、采用异步FIFO对输入对声音数字数据进行分帧形成数据帧;
S22、对数据帧进行加窗,得到加窗之后的数据帧;
S23、对加窗之后的数据帧进行快速傅立叶变换,输出两路数据;
S24、将输出的两路数据中包含频域信息的数据分别进行幅度计算,获得声音频域幅度数据;
S25、将声音频域幅度数据进行Mel滤波,输出多个Mel滤波输出;
S26、将多个Mel滤波输出进行对数计算,获得声音特征图。
3.根据权利要求2所述的一种基于FPGA的实时声音分类方法,其特征在于,Mel滤波器包括多个具有Mel尺度的三角带通滤波器,每个三角滤波器的中心频率f(m)之间的间距随m增大而增宽。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于电子科技大学,未经电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011239248.5/1.html,转载请声明来源钻瓜专利网。