[发明专利]一种基于FPGA的实时声音分类方法及系统有效
申请号: | 202011239248.5 | 申请日: | 2020-11-09 |
公开(公告)号: | CN112397090B | 公开(公告)日: | 2022-11-15 |
发明(设计)人: | 肖卓凌;柴进;孟子杰;王志轩;阎波;袁子强 | 申请(专利权)人: | 电子科技大学 |
主分类号: | G10L25/51 | 分类号: | G10L25/51;G06N3/04;G10L25/03;G10L25/18;G10L25/30;G10L25/45 |
代理公司: | 北京正华智诚专利代理事务所(普通合伙) 11870 | 代理人: | 李林合 |
地址: | 611731 四川省成*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 fpga 实时 声音 分类 方法 系统 | ||
本发明公开了一种基于FPGA的实时声音分类方法,本发明通过FPGA对声音数据进行特征提取,获得声音数据的MFSC特征图,然后利用CNN分类网络对得到的MFSC特征图进行计算,实现对所采集到的声音进行分类的功能,可以随时随地、方便快捷地对外部声音进行监测和分类。具有低功耗、低成本、便携带、实时性和多实用性等优点。
技术领域
本发明涉及声音识别和处理领域,具体涉及一种基于FPGA的实时声音分类方法及系统。
背景技术
声音信号包含了丰富的信息,是人类感知环境的重要信息来源之一,也是反应人类行为的重要特征。同时声音信号可以在视野外进行接收,而且不受光线的影响,其所需的存储空间和后续的处理计算难度都要低于视频信号,这使得声音分类被广泛应用在许多领域当中,包括导航、智能机器人、安全监控、声音事件跟踪定位、自然保护、公共安全等领域。
对于声音分类,研究方向主要集中在声音信号的特征提取和模式分类两个方面,根据特征和分类模型的不同,形成不同的解决方案。现在有关声音分类算法主要研究方向集中在理论算法实现方面,由于理论算法的复杂度较高而且计算量较大,所以一般在计算机上通过软件方式进行实现。
目前声音分类方法主要利用机器学习算法,即声音特征提取+深度神经网络的组合处理方式,其中声音特征提取到的特征比较常用的为MFCC,深度神经网络比较常用的为CNN。由于MFCC和CNN的计算复杂度较高,参数量较大,所以一般在CPU(或GPU)平台进行实现,在CPU平台进行实现时,网络规模很大,对于实时性的要求不容易满足,而且CPU平台的功耗较高,成本较高,不利于便携部署。
FPGA的优点是在设计过程中能够提供极大的灵活性。根据不同的需求,设计人员可以通过编程的方式进行不同的系统设计,并且能够动态配置更改。所以基于FPGA实现性能优良的小型化声音分类系统对声音分类的应用具有十分重要的意义。
发明内容
本发明所要解决的技术问题是:通过不同社区能源互联网间的电能交易减少社区能源互联网集群从配电网购电或售电的电量,促进风电就近消纳,降低社区能源互联网运行成本。本发明提供了解决上述问题的一种基于FPGA的实时声音分类方法及系统,提出了新型能量交易机制及实施方案,使得现代电力系统能够更好地支持各种分布式间歇性电源设备的接入,实现清洁能源、社区能源互联网和配电网的友好互动。
本发明通过下述技术方案实现:
一种基于FPGA的实时声音分类方法,包括如下步骤:
S1、获取声音数字数据;
S2、提取所获取的声音数字数据中的声音特征,获得声音特征图;
S3、获取声音特征图进行分类计算,获取声音判断概率;
S4、根据声音判决最大的概率得到声音的分类结果。
进一步的,声音源的获取通过麦克风,声音数据通过麦克风进入FPGA模块,获取的声音数字数据采样率为22050Hz,以1.61s声音数据为一块进行处理。
进一步的,FPGA中声音特征提取模块对输入的声音数据进行特征提取,形成声音特征图,将声音特征图输入分类网络进行声音种类的判断分类,其中:
声音的特征提取的方法为:
S21、对声音数字数据进行分帧形成数据帧;
S22、对数据帧进行加窗,得到加窗之后的数据帧;
S23、对加窗之后的数据帧进行快速傅立叶变换,输出两路数据;
S24、将输出的两路数据中包含频域信息的数据分别进行幅度计算,获得声音频域幅度数据;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于电子科技大学,未经电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011239248.5/2.html,转载请声明来源钻瓜专利网。