[发明专利]基于声学特征和视觉特征融合的生猪咳嗽声音识别方法在审
申请号: | 202210004775.0 | 申请日: | 2022-01-05 |
公开(公告)号: | CN114330453A | 公开(公告)日: | 2022-04-12 |
发明(设计)人: | 尹艳玲;沈维政;纪楠;王锡鹏;严士超;包军;刘洪贵;熊本海 | 申请(专利权)人: | 东北农业大学 |
主分类号: | G06K9/00 | 分类号: | G06K9/00;G06K9/62;G06V10/764;G06V10/80;G06V20/40;G06V20/52 |
代理公司: | 北京东方盛凡知识产权代理事务所(普通合伙) 11562 | 代理人: | 李娜 |
地址: | 150000 黑龙*** | 国省代码: | 黑龙江;23 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 声学 特征 视觉 融合 生猪 咳嗽 声音 识别 方法 | ||
1.一种基于声学特征和视觉特征融合的生猪咳嗽声音识别方法,其特征在于,包括以下步骤:
对语料库中生猪的咳嗽声和非咳嗽声的声音片段进行声学特征提取,并将生猪的咳嗽声和非咳嗽声的声音片段分别转换为频谱图进行视觉特征提取;
从特征选择和特征处理两个方面对提取出来的特征进行降维处理并进行融合,将融合的特征输入机器学习的分类模型中,实现对生猪咳嗽声音的识别。
2.根据权利要求1所述的方法,其特征在于,对语料库中所述生猪的咳嗽声和非咳嗽声的声音片段进行声学特征提取的过程中包括:
对所述语料库中生猪咳嗽声和非咳嗽声的声音片段直接提取声学特征,所述声学特征包括均方根能量、梅尔倒谱系数、过零率、频谱质心、频谱滚降、频谱平坦度、频谱带宽和色度。
3.根据权利要求1所述的方法,其特征在于,将生猪的咳嗽声和非咳嗽声的声音片段分别转换为频谱图进行视觉特征提取的过程中包括:
基于常数Q变换将所述声音片段转换为频谱图,并将所述频谱图保存为100×100×3像素大小的彩色频谱图;
将所述彩色频谱图转化为灰度频谱图,从所述灰度频谱图上提取视觉特征,包括局部二值模式和方向梯度直方图。
4.根据权利要求2或3所述的方法,其特征在于,从特征选择和特征处理两个方面对提取出来的特征进行降维处理的过程中包括:
基于所述特征选择方面,对所述声学特征进行降维处理;
基于所述特征处理方面,对所述视觉特征进行降维处理,包括:
进行视觉特征提取的过程中,采用主成分分析法进行维度降低。
5.根据权利要求4所述的方法,其特征在于,基于所述特征选择方面,对所述特征进行降维处理的过程包括:
在所选择的声学特征中,采用皮尔森相关系数和递归特征消除方法相结合进行特征选择,包括:对所述声学特征计算皮尔森相关系数,对没有相关性的所述声学特征进行独立测试分类性能,对有相关性的特征采用随机森林结合递归特征消除的方法进行进一步的特征选择。
6.根据权利要求1所述的方法,其特征在于,对完成降维处理的特征进行融合,并输入机器学习的分类模型中包括:
根据筛选出的声学特征和视觉特征,进行不同特征组的融合;
融合后输入到机器学习的分类模型中,进行咳嗽声与非咳嗽声的分类,所述机器学习的分类模型包括支持向量机、随机森林和K最邻近法。
7.根据权利要求6所述的方法,其特征在于,针对机器学习的分类模型,选择Gridsearch网格搜索法进行分类模型的参数选择。
8.根据权利要求6所述的方法,其特征在于,进行分类的过程中包括:
针对所述支持向量机,选择两种核函数,包括线性核函数和RBF核函数;
针对所述随机森林,将n_estimators设置范围在(10,50),将min_samples_split设置范围在(2,9);
针对K最邻近法,设置n_neighbors的范围在(1,50)。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于东北农业大学,未经东北农业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210004775.0/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种坐式四肢联动康复训练装置
- 下一篇:菌株及其应用