[发明专利]一种利用变换域稀疏化和压缩降维的音频检索方法有效

申请号：	201910876038.8	申请日：	2019-09-17
公开（公告）号：	CN110647656B	公开（公告）日：	2021-03-30
发明（设计）人：	赵文兵;杨淇善;贾懋珅	申请（专利权）人：	北京工业大学
主分类号：	G06F16/683	分类号：	G06F16/683;G06F16/632
代理公司：	北京思海天达知识产权代理有限公司 11203	代理人：	吴荫芳
地址：	100124 ***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种利用变换稀疏压缩音频检索方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种利用变换域稀疏化和压缩降维的音频检索方法，其特征在于包括以下步骤：

步骤1，构建样本声音库

根据音频种类的不同以及现有的音频数据将音频数据进行同类分组；

步骤2，训练阶段，利用变换域稀疏化和压缩降维对样本音频进行压缩处理

选取上述样本声音库中的各类音频数据作为原始训练数据，对上述各类音频进行压缩处理，具体流程如下：

Step2.1：声音预处理

(1)选取上述音频信号作为处理对象，对每一帧音频信号进行带通滤波、预加重、加窗、分帧处理；

(2)对加窗分帧后的信号静音帧的判别，求取每一帧音频信号的短时能量信息，设定能量阈值为2～4，如果该帧能量低于设定的阈值，则视该帧为静音帧，丢弃该帧继续计算下一帧的短时能量信息，直到找到非静音帧为止或音频结束，短时能量的计算公式如下：

其中，p是样点编号，x_n(p)是音频信号第n帧第p个样点，L为帧长，E(n)为第n帧音频信号的平均帧能量；

Step2.2：利用变换域稀疏化和压缩降维对样本音频进行压缩处理

(1)对预处理后的音频信号进行离散余弦变换Discrete Cosine Transform,DCT域稀疏化处理，用于将音频信号转化为具有频域稀疏特性的音频信号具体转化过程如下：

根据稀疏编码模型计算DCT基Ψ，预处理后的音频信号x_n(p)在DCT域的稀疏系数α可用以下公式表示:

α＝Ψ^TX

其中，X＝[x_n(1),x_n(2),.....,x_n(N)]为上述预处理后的第n帧音频信号，长度为N，每个样点处信号记为x_n(p),p∈[1,2,.......,N]，Ψ^T表示矩阵Ψ的转置矩阵，α与X都是N×1维的向量，Ψ为N×N的矩阵，Ψ^T＝[Ψ₁,Ψ₂,.....,Ψ_N]，α＝[α₁,α₂,...α_p,...,α_N]^T,音频信号序列x_n(p)在DCT域的稀疏系数α第p个系数表示为：

其中

由此，构建频域稀疏化后的音频信号:

其中，为第n帧得到的稀疏音频信号，长度为N,每个样点处稀疏信号记为即，

(2)对稀疏音频信号进行压缩，将上述稀疏音频信号经过观测投影矩阵Φ＝[Φ₁,Φ₂,...,Φ_r,...,Φ_M],其中Φ_r＝[Φ_r(1),Φ_r(2),......,Φ_r(N)]^T投影，得到观测序列信号，表示为：

其中，Φ表示N×M的观测矩阵，投影矩阵Φ^T表示M×N的观测矩阵，M＜＜N，y_n(p)表示第n帧的第p个观测序列信号，维度是M×1的一维向量；

步骤3，训练阶段，建立样本音频指纹库

Step3.1：对上述压缩后的样本音频序列y_n(p)进行指纹提取，选取Philips音频指纹模型为指纹特征，具体提取过程如下：

首先，对上述压缩后的音频数据y_n(p)进行二次分帧加窗，然后，对分帧加窗后的信号进行离散傅里叶变换并对频域信号进行频谱子带划分，从频谱中选取33个非重叠的频带，频带之间是等对数间隔的，接着，计算每帧音频的各个子带能量，分别求其上述选取的33个非重叠频带的能量，最后，根据子带能量的判别生成每帧音频的子指纹，上述每帧所求的33个子带能量比特差分判别公式如下：

其中，E(n,m)表示音频第n帧的第m个子带能量，F(n,m)表示其对应的二进制比特指纹信息；

步骤4，识别阶段，提取待检测音频的指纹特征与模板进行匹配

(1)选取一段待测音频经上述Step2.1预处理得到待测音频序列信号Z，待测音频信号第n帧的信号记为Z_n(p),p∈[1,2,.......,N],则待测音频序列信号Z_n(p)经步骤Step2.2中(1)处理可构建频域稀疏化后的待测音频信号:

其中，为第n帧得到的稀疏音频信号，长度为N,每个样点处稀疏信号记为即，

(2)将上述稀疏待测音频信号经过观测投影矩阵Φ＝[Φ₁,Φ₂,......Φ_M]投影后的得到待测观测序列信号，表示为：

其中，Φ表示N×M的观测矩阵，投影矩阵Φ^T表示M×N的观测矩阵，与上述Step2.2中(2)的Φ^T同为固定矩阵且相同，表示N×1的矩阵，表示第n帧的待测观测序列信号，维度是M×1的一维向量；

(3)将上述压缩处理后的待测观测序列信号经Step3.1步骤处理得到待测音频指纹F′(n,m)；

(4)将得到的待测音频指纹与样本音频指纹库中的音频指纹进行相似度匹配，选取比特误差率(Bit Error Rate,BER)作为匹配算法比较两个音频片段之间的相似度，其计算公式如下:

其中，F(n,m),F′(n,m)分别代表样本音频和待检音频第n帧音频指纹的第m位，T为音频总帧数，M为音频指纹位数；

(5)设置比特误差率的阈值，若BER值小于阈值则表示待检音频与样本音频库中的音频相似度高，反之，待检音频与样本音频库中的音频相似度低。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于北京工业大学，未经北京工业大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201910876038.8/1.html，转载请声明来源钻瓜专利网。

上一篇：一种基于大数据的云端教育系统
下一篇：资源结构化数据自动纠错的方法、装置、设备及存储介质

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种利用变换域稀疏化和压缩降维的音频检索方法有效

专利文献下载