[发明专利]一种利用变换域稀疏化和压缩降维的音频检索方法有效
申请号: | 201910876038.8 | 申请日: | 2019-09-17 |
公开(公告)号: | CN110647656B | 公开(公告)日: | 2021-03-30 |
发明(设计)人: | 赵文兵;杨淇善;贾懋珅 | 申请(专利权)人: | 北京工业大学 |
主分类号: | G06F16/683 | 分类号: | G06F16/683;G06F16/632 |
代理公司: | 北京思海天达知识产权代理有限公司 11203 | 代理人: | 吴荫芳 |
地址: | 100124 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 利用 变换 稀疏 压缩 音频 检索 方法 | ||
1.一种利用变换域稀疏化和压缩降维的音频检索方法,其特征在于包括以下步骤:
步骤1,构建样本声音库
根据音频种类的不同以及现有的音频数据将音频数据进行同类分组;
步骤2,训练阶段,利用变换域稀疏化和压缩降维对样本音频进行压缩处理
选取上述样本声音库中的各类音频数据作为原始训练数据,对上述各类音频进行压缩处理,具体流程如下:
Step2.1:声音预处理
(1)选取上述音频信号作为处理对象,对每一帧音频信号进行带通滤波、预加重、加窗、分帧处理;
(2)对加窗分帧后的信号静音帧的判别,求取每一帧音频信号的短时能量信息,设定能量阈值为2~4,如果该帧能量低于设定的阈值,则视该帧为静音帧,丢弃该帧继续计算下一帧的短时能量信息,直到找到非静音帧为止或音频结束,短时能量的计算公式如下:
其中,p是样点编号,xn(p)是音频信号第n帧第p个样点,L为帧长,E(n)为第n帧音频信号的平均帧能量;
Step2.2:利用变换域稀疏化和压缩降维对样本音频进行压缩处理
(1)对预处理后的音频信号进行离散余弦变换Discrete Cosine Transform,DCT域稀疏化处理,用于将音频信号转化为具有频域稀疏特性的音频信号具体转化过程如下:
根据稀疏编码模型计算DCT基Ψ,预处理后的音频信号xn(p)在DCT域的稀疏系数α可用以下公式表示:
α=ΨTX
其中,X=[xn(1),xn(2),.....,xn(N)]为上述预处理后的第n帧音频信号,长度为N,每个样点处信号记为xn(p),p∈[1,2,.......,N],ΨT表示矩阵Ψ的转置矩阵,α与X都是N×1维的向量,Ψ为N×N的矩阵,ΨT=[Ψ1,Ψ2,.....,ΨN],α=[α1,α2,...αp,...,αN]T,音频信号序列xn(p)在DCT域的稀疏系数α第p个系数表示为:
其中
由此,构建频域稀疏化后的音频信号:
其中,为第n帧得到的稀疏音频信号,长度为N,每个样点处稀疏信号记为即,
(2)对稀疏音频信号进行压缩,将上述稀疏音频信号经过观测投影矩阵Φ=[Φ1,Φ2,...,Φr,...,ΦM],其中Φr=[Φr(1),Φr(2),......,Φr(N)]T投影,得到观测序列信号,表示为:
其中,Φ表示N×M的观测矩阵,投影矩阵ΦT表示M×N的观测矩阵,M<<N,yn(p)表示第n帧的第p个观测序列信号,维度是M×1的一维向量;
步骤3,训练阶段,建立样本音频指纹库
Step3.1:对上述压缩后的样本音频序列yn(p)进行指纹提取,选取Philips音频指纹模型为指纹特征,具体提取过程如下:
首先,对上述压缩后的音频数据yn(p)进行二次分帧加窗,然后,对分帧加窗后的信号进行离散傅里叶变换并对频域信号进行频谱子带划分,从频谱中选取33个非重叠的频带,频带之间是等对数间隔的,接着,计算每帧音频的各个子带能量,分别求其上述选取的33个非重叠频带的能量,最后,根据子带能量的判别生成每帧音频的子指纹,上述每帧所求的33个子带能量比特差分判别公式如下:
其中,E(n,m)表示音频第n帧的第m个子带能量,F(n,m)表示其对应的二进制比特指纹信息;
步骤4,识别阶段,提取待检测音频的指纹特征与模板进行匹配
(1)选取一段待测音频经上述Step2.1预处理得到待测音频序列信号Z,待测音频信号第n帧的信号记为Zn(p),p∈[1,2,.......,N],则待测音频序列信号Zn(p)经步骤Step2.2中(1)处理可构建频域稀疏化后的待测音频信号:
其中,为第n帧得到的稀疏音频信号,长度为N,每个样点处稀疏信号记为即,
(2)将上述稀疏待测音频信号经过观测投影矩阵Φ=[Φ1,Φ2,......ΦM]投影后的得到待测观测序列信号,表示为:
其中,Φ表示N×M的观测矩阵,投影矩阵ΦT表示M×N的观测矩阵,与上述Step2.2中(2)的ΦT同为固定矩阵且相同,表示N×1的矩阵,表示第n帧的待测观测序列信号,维度是M×1的一维向量;
(3)将上述压缩处理后的待测观测序列信号经Step3.1步骤处理得到待测音频指纹F′(n,m);
(4)将得到的待测音频指纹与样本音频指纹库中的音频指纹进行相似度匹配,选取比特误差率(Bit Error Rate,BER)作为匹配算法比较两个音频片段之间的相似度,其计算公式如下:
其中,F(n,m),F′(n,m)分别代表样本音频和待检音频第n帧音频指纹的第m位,T为音频总帧数,M为音频指纹位数;
(5)设置比特误差率的阈值,若BER值小于阈值则表示待检音频与样本音频库中的音频相似度高,反之,待检音频与样本音频库中的音频相似度低。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京工业大学,未经北京工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910876038.8/1.html,转载请声明来源钻瓜专利网。