[发明专利]一种基于多种声音特征的相似度计算方法有效
申请号: | 201710933415.8 | 申请日: | 2017-10-10 |
公开(公告)号: | CN107610715B | 公开(公告)日: | 2021-03-02 |
发明(设计)人: | 龙华;张琳;邵玉斌;杜庆治 | 申请(专利权)人: | 昆明理工大学 |
主分类号: | G10L25/03 | 分类号: | G10L25/03;G10L25/24;G10L25/27 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 650093 云*** | 国省代码: | 云南;53 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 多种 声音 特征 相似 计算方法 | ||
本发明涉及一种基于多种声音特征的相似度计算方法,属于音频信号处理技术领域。首先对声音信号进行预处理,预处理过程包括:预加重、分帧处理、加窗函数,然后提取声音信号的时域特征、频域特征、倒谱域特征。时域特征包括:短时平均过零率和短时自相关函数;频域特征包括:短时功率谱密度函数;倒谱域特征包括:梅尔频率倒谱系数和线性预测倒谱系数。分别针对提取的音频特征进行相似度值的计算,通过对待测音频特征分别做互相关的方法,得到每一种特征参数计算的相似度值。
技术领域
本发明涉及一种基于多种声音特征的相似度计算方法,属于音频信号处理技术领域。
背景技术
在语音识别、语音内容相似性判别系统中,特征提取过程就是抽取保持语音最重要特征,并消除与语音无关信号的干扰。特征参数的选择直接影响着相似性判别的准确率。本发明分别提取时域特征参数、频域特征参数、倒谱域特征参数,因不同特征参数表征的音频信息不同,对相似性判别的贡献不同,对此,为了能够有效准确的比较待测音频的相似性,使以特征参数判别相似性的方法具有更好的鲁棒性,提出了对不同特征参数计算的相似度值线性加权的方法。
发明内容
本发明要解决的技术问题是提供一种基于多种声音特征的相似度计算方法,分别通过时域特征参数、频域特征参数、倒谱域特征参数进行音频信号相似度的计算,并对不同特征参数计算的结果进行线性加权。
本发明的技术方案是:一种基于多种声音特征的相似度计算方法,包括以下步骤:
(1)预处理:预处理过程分为三个步骤:预加重处理、分帧处理、加窗函数;
(2)提取特征参数:分别提取表征音频信号信息的时域特征,频域特征,倒谱域特征;
(3)相似度值计算:分别计算每种特征参数的相似度值;
(4)相似度值线性加权:把每一种特征参数计算的相似度值进行线性加权,通过试验方法,确定权重系数,从而确定待测音频的相似度。
上述的一种基于多种声音特征的相似度计算方法,步骤(1)中预处理,其中把待测音频信号进行分帧处理:音频序列是时间轴上的一维信号,为了能够对其进行信号分析,需要假设音频信号在毫秒级别的短时间处于稳定状态,因此在此基础上对音频信号进行分帧操作。对音频信号分帧处理可采用连续分段的方法,但为了使帧与帧之间平滑过渡保持其连续性,一般会采用交叠分段的方法。分帧是用可移动的有限长度窗口进行加权的方法来实现的,也就是用一定的窗函数w(n)来乘音频信号s(n),从而形成加窗的音频信号sw(n)=s(n)×w(n)。
设待测的音频信号分别为s(n)和s*(n),经过预处理后的信号为si(n)和其中下标i分别表示分帧后的第i帧。信号s(n)和s*(n)具有相同的采样率,量化精度,时间长度。在本发明中,帧长设为256点,约20.48ms,帧移128点,音频信号的采样率为44.1KHz,待测音频信号均分为m帧,i的取值范围为[1,m];
上述的一种基于多种声音特征的相似度计算方法,步骤(2)中提取特征参数,提取的特征参数有时域、频域、倒谱域特征参数。时域特征参数有短时平均过零率和短时自相关函数,频域特征参数有短时功率谱密度函数,倒谱域特征参数有梅尔频率倒谱系数(MFCC)和线性预测倒谱系数(LPCC)。
对每一帧信号si(n)和分别提取短时平均过零率、短时自相关函数、短时功率谱密度函数、梅尔频率倒谱系数(MFCC)和线性预测倒谱系数(LPCC)。
(1)短时平均过零率:待测音频信号每一帧的短时平均过零率分别为xi和则m帧的短时平均过零率则组成了短时平均过零率序列{xi}和分别用符号X(i)和X*(i)表示,下标i表示第i帧,待测音频序列共被分为m帧;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于昆明理工大学,未经昆明理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710933415.8/2.html,转载请声明来源钻瓜专利网。
- 上一篇:基于时延估计的回声消除方法及装置
- 下一篇:多媒体信息检测方法及装置