[发明专利]一种利用变换域稀疏化和压缩降维的音频检索方法有效
申请号: | 201910876038.8 | 申请日: | 2019-09-17 |
公开(公告)号: | CN110647656B | 公开(公告)日: | 2021-03-30 |
发明(设计)人: | 赵文兵;杨淇善;贾懋珅 | 申请(专利权)人: | 北京工业大学 |
主分类号: | G06F16/683 | 分类号: | G06F16/683;G06F16/632 |
代理公司: | 北京思海天达知识产权代理有限公司 11203 | 代理人: | 吴荫芳 |
地址: | 100124 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 利用 变换 稀疏 压缩 音频 检索 方法 | ||
本发明智能应用型音频信号处理领域,具体涉及一种利用变换域稀疏化和压缩降维的音频检索方法。该方法用音频指纹作为音频检索特征,本技术在音频检索的训练阶段通过利用变换域稀疏化和压缩降维先对样本音频数据进行压缩,再对压缩后的音频序列提取音频指纹,使得提取的音频指纹数据量减小,从而减小样本音频指纹库的数据量。在音频检索的识别(检索)阶段用相同的算法压缩待检音频后提取待检音频指纹和样本音频指纹匹配很大程度上提高了检索效率。
技术领域
本发明智能应用型音频信号处理领域,具体涉及一种利用变换域稀疏化和压缩降维的音频检索方法。
背景技术
近年来,随着数字化信息的快速发展,各种以音频为载体的作品也越来越多,如何管理这些种类繁多的音频文件就成为一个突出的问题,特别是涉及到音频作品的版权问题。而现实生活中的音频文件版本种类繁多,丰富了人们生活同时也给人们带来了麻烦,人们如何准确、高效的从数据库中检索获得自己想要的信息,已经成为信息时代人们迫切需要同时也是音频检索领域有待解决的重要问题之一。
对于上述问题,有一些研究人员通过提取传统音频特征构建音频数据库,进行音频目标数据检索。但是,由于特征维数较大增加了特征库存储量、降低了检索效率。对此,在保证有效音频特征的前提下减小样本音频特征库存储量对于音频检索速率具有重要的意义。
发明内容
针对样本数据量大且检索效率低等问题,本发明设计一种利用变换域稀疏化和压缩降维的音频检索方法,该方法的特点在于在提取音频特征前对原始音频数据进行压缩,压缩后的音频数据量在很大程度上减小,这就为接下来的特征提取减少了很多时间,且经此压缩后的音频序列提取的音频特征的数据量也减少很多。
针对样本音频指纹库数据量大检索速率慢问题,本发明提供一种利用变换域稀疏化和压缩降维的算法对样本音频先压缩在提取音频指纹特征,该方法包括①样本音频的压缩、②音频指纹特征的提取、③目标音频特征库的建立、④待检音频指纹与样本音频指纹库的匹配方法。
本发明的技术方案用于解决音频检索过程中样本音频指纹库数据量较大的问题,通过对样本音频库中的音频采取先压缩再提取音频指纹建立样本音频指纹库的方法,实现降低样本音频指纹库的数据量,主要分为以下几个步骤:
步骤1,构建样本声音库
根据音频种类的不同以及现有的音频数据将音频数据进行同类分组。同类分组的目的是便于提高音频检索速率,将样本音频按上述分组分别建立音频子库以备音频训练使用。音频检索主要分为样本音频的训练阶段和待测音频的识别阶段,总体框架图如图1.所示:
步骤2,训练阶段,利用变换域稀疏化和压缩降维对样本音频进行压缩处理
选取上述样本声音库中的各类音频数据作为原始训练数据,对上述各类音频进行压缩处理,具体流程如下:
Step2.1:声音预处理
由于音频信号具有短时平稳性,且音频的首末段以及中间段有不含信息的音频段,为了更高效的压缩样本音频,需要对样本音频进行预处理,分为带通滤波、预加重、分帧、加窗和静音帧判别。音频预处理流程图如图2.所示。
(1)选取8kHz采样音频信号作为处理对象,为提取人耳感知最重要的频率成分,选用通带范围为300Hz-2000Hz的带通滤波器对信号进行滤波、预加重处理。
(2)对滤波、预加重后的信号进行加窗分帧处理,本次分帧和加窗是针对样本压缩无需考虑帧与帧之间的平滑过渡,因此本次分帧采用连续分段的方法,以帧长为0.064秒对音频进行分帧,每一帧用相同长度的矩形窗进行加权。加窗公式如下:
其中,p是样点编号,N为矩形窗的长度,大小为一帧音频的样点数。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京工业大学,未经北京工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910876038.8/2.html,转载请声明来源钻瓜专利网。