[发明专利]一种声场景分类中融合类间标准差的特征提取方法有效
申请号: | 201710472024.0 | 申请日: | 2017-06-20 |
公开(公告)号: | CN107393554B | 公开(公告)日: | 2020-07-10 |
发明(设计)人: | 杨玉红;胡瑞敏;江玉至;陆璐;艾浩军;涂卫平;王晓晨;张会玉 | 申请(专利权)人: | 武汉大学 |
主分类号: | G10L25/51 | 分类号: | G10L25/51;G10L25/24;G10L25/18;G10L15/06 |
代理公司: | 武汉科皓知识产权代理事务所(特殊普通合伙) 42222 | 代理人: | 鲁力 |
地址: | 430072 湖*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 声场 分类 融合 标准差 特征 提取 方法 | ||
1.一种声场景分类中融合类间标准差的特征提取方法,包括:
步骤1,基于梅尔滤波器的特征提取:计算原始音频的频谱图,基于梅尔滤波器降采样,得到降采样后的特征频谱图P1;
步骤2,基于类间标准差的特征提取:计算原始音频的频谱图,基于类间频域标准差滤波器降采样,得到降采样后的类间标准差特征频谱图P2;
步骤3,基于类间标准差的特征融合:将步骤1中的特征频谱图P1和步骤2中的特征频谱图P2进行拼接,作为声场景分类模型的输入,包含以下步骤:
子步骤1,利用梅尔滤波器提取音频特征频谱图,记为特征频谱图P1;
子步骤2,利用基于类间频域标准差滤波器提取基于类间频域标准差的音频特征频谱图,记为特征频谱图P2;
子步骤3,将步骤1中的特征频谱图P1和步骤2中的特征频谱图P2沿着时域对齐,任选一张特征频谱图频域翻转,和余下的特征频谱图共用同一时间轴拼接,得到拼接后的特征图P3。
2.根据权利要求1所述的一种声场景分类中融合类间标准差的特征提取方法,其特征在于,基于类间标准差的特征提取包含以下子步骤:
子步骤1,将包含M类音频场景的音频数据集作为训练集A,Nj是对应第j类声学场景中样本的个数;
子步骤2,将步骤1中原始训练集A中音频文件根据场景分成M类,在每一类中,将音频文件做时频变换,将得到相应每个点处对数幅度值相加起来,每个频点的值得到Bji是第j类场景下第i个样本的对数幅度谱,d是频点的下标;
子步骤3,将子步骤1中训练集A所有音频文件做时频变换得到频谱图,再将频谱图中各频点处对数幅度值相加,每个频点的值除以帧数,得到整个训练集均值,即通过下面公式计算得到:
其中M是场景类别总数,j是M类场景的序号,Nj是对应第j类声学场景中样本的个数,Bji是第j类场景下第i个样本的对数幅度谱,d是频点的下标,N是总的文件数;
子步骤4,根据以下公式求出M类类内标准差:
子步骤5,将子步骤4中M类内标准差通过下面公式:
得到整体频率标准差;
子步骤6,利用公式:计算类间标准差,将类间标准差归一化到[0,1]之间,作出横轴为频率,纵轴为归一化后标准差的训练集中类间频域标准差分布图B;
子步骤7,对子步骤6中得到的频率标准差图B进行降采样后得到新的频段数是D,根据标准差图和坐标轴的围成面积来确定边界;定义标准差曲线和坐标轴的面积为S,计算确定D组边界[a,b],使得[a,b]区间内的面积满足Sab=S/D;根据数学中的数值积分方法,作出横坐标为频率,纵坐标为归一化到[0,1]之间类间频域标准差积分曲线C;
子步骤8,运用以下公式:
p(x)=p1xn+p2xn-1+...+pnx+pn+1采用多项式拟合的方法对步骤7中积分曲线C进行拟合,得到拟合曲线的多项表达式,再令p(x)取[0,D]之间的整数,反解方程,得到对应频点[a,b]
子步骤9,子步骤8中求解出来的D组边界[a,b]组成一组基于类间频域标准差的滤波器,用这组滤波器降采样得到的特征即基于类间频域标准差的音频特征频谱图P2。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于武汉大学,未经武汉大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710472024.0/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种语音信号修复方法及移动终端
- 下一篇:数据摆渡装置及其摆渡方法