[发明专利]一种基于FPGA的实时声音分类方法及系统有效

专利信息
申请号: 202011239248.5 申请日: 2020-11-09
公开(公告)号: CN112397090B 公开(公告)日: 2022-11-15
发明(设计)人: 肖卓凌;柴进;孟子杰;王志轩;阎波;袁子强 申请(专利权)人: 电子科技大学
主分类号: G10L25/51 分类号: G10L25/51;G06N3/04;G10L25/03;G10L25/18;G10L25/30;G10L25/45
代理公司: 北京正华智诚专利代理事务所(普通合伙) 11870 代理人: 李林合
地址: 611731 四川省成*** 国省代码: 四川;51
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 fpga 实时 声音 分类 方法 系统
【权利要求书】:

1.一种基于FPGA的实时声音分类方法,其特征在于,包括如下步骤:

S1、获取声音数字数据;

S2、提取所获取的声音数字数据中的声音特征,获得声音特征图;

S3、获取声音特征图进行分类计算,获取声音判断概率,具体方式为:

S31、对声音特征图进行填充,获得声音特征的填充特征图;

S32、将填充特征图经过卷积层计算后,通过激活函数再进行最大池化得到进一步的声音特征图;

S33、重复多次上述步骤得到三维的声音特征图,具体重复方式为:

将输入的MFSC声音特征图作为第一特征图,其特征图矩阵的边缘进行零填充,其目一是经过3*3卷积核之后可以保持特征图片大小不变,二是可以保留边缘信息,经过填充得到大小为162*66*1的第一填充特征图;

将第一填充特征图经过大小3*3卷积核计算,3*3的卷积核在特征图上滑动,并与其做乘加运算,得到的结果放在特征图的原位置,然后通过Relu6激活函数,对于特征图中小于0的数全部置0,大于6的数全部置6,其余保持不变;再进行最大池化,使用2*2的窗口在特征图上滑动,只保留每个窗口中的最大数,使得特征图的长和宽变为原来的一半,最后得到大小为80*32*64第二特征图,将第二特征图进行零填充,得到大小为82*34*64的第二填充特征图;

将第二特填充征图经过卷积计算,然后通过Relu6激活函数并进行最大池化,得到大小为40*16*128的第三特征图,将第三特征图进行零填充,得到大小为42*18*128的第三填充特征图;

将第三填充特征图经过卷积计算,然后通过Relu6激活函数并进行最大池化,得到大小为40*16*256的第四特征图,将第四特征图进行零填充,得到大小为42*18*256的第四填充特征图;

将第四填充特征图经过卷积计算,然后通过Relu6激活函数并进行最大池化,得到大小为20*8*256的第五特征图,将第五特征图进行零填充,得到大小为22*10*256的第五填充特征图;

将第五填充特征图经过卷积计算,然后通过Relu6激活函数并进行最大池化,得到大小为20*8*256的第六特征图,将第六特征图进行零填充,得到大小为22*10*256的第六填充特征图;

将第六填充特征图经过大小为1*1*128的卷积核计算,然后通过Relu6激活函数并进行最大池化,得到大小为1*8*512的第七特征图,将第七特征图经过卷积计算然后通过Relu6激活函数,得到大小为1*8*128的第八特征图;

将第八特征图经过1*1*128的卷积核计算,并通过激活函数得到大小为1*8*64的第九特征图;

S34、将三维的声音特征图各通道首尾相连,降维形成声音特征数据,具体方式为:

将第九特征图各通道首尾相接,使其由三维降至二维,形成大小为1*512*1的第十特征图;

S35、将声音特征数据通过全连接层,获取不同声音判决的概率,具体方式为:将第十特征图通过全连接层得到6个数值,然后经过sigmoid函数输出6个在0、1之间的事件发生的概率;

S4、根据声音判决最大的概率得到声音的分类结果,具体判决方式为:

根据步骤S35得到三种不同声音判决的概率,其中最大的概率即为声音分类的结果。

2.根据权利要求1所述的一种基于FPGA的实时声音分类方法,其特征在于,所述声音特征的提取过程包括:

S21、采用异步FIFO对输入对声音数字数据进行分帧形成数据帧;

S22、对数据帧进行加窗,得到加窗之后的数据帧;

S23、对加窗之后的数据帧进行快速傅立叶变换,输出两路数据;

S24、将输出的两路数据中包含频域信息的数据分别进行幅度计算,获得声音频域幅度数据;

S25、将声音频域幅度数据进行Mel滤波,输出多个Mel滤波输出;

S26、将多个Mel滤波输出进行对数计算,获得声音特征图。

3.根据权利要求2所述的一种基于FPGA的实时声音分类方法,其特征在于,Mel滤波器包括多个具有Mel尺度的三角带通滤波器,每个三角滤波器的中心频率f(m)之间的间距随m增大而增宽。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于电子科技大学,未经电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202011239248.5/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top