[发明专利]一种基于多种声音特征的相似度计算方法有效
申请号: | 201710933415.8 | 申请日: | 2017-10-10 |
公开(公告)号: | CN107610715B | 公开(公告)日: | 2021-03-02 |
发明(设计)人: | 龙华;张琳;邵玉斌;杜庆治 | 申请(专利权)人: | 昆明理工大学 |
主分类号: | G10L25/03 | 分类号: | G10L25/03;G10L25/24;G10L25/27 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 650093 云*** | 国省代码: | 云南;53 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 多种 声音 特征 相似 计算方法 | ||
1.一种基于多种声音特征的相似度计算方法,其特征在于具体步骤为:
(1)预处理:预处理过程分为三个步骤:预加重处理、分帧处理、加窗函数;
(2)提取特征参数:分别提取表征音频信号信息的时域特征参数、频域特征参数、倒谱域特征参数;
(3)相似度值计算:分别计算每种特征参数的相似度值;
(4)相似度值线性加权:把每一种特征参数计算的相似度值进行线性加权,通过试验方法,确定权重系数,从而计算待测音频的相似度;
所述相似度值线性加权权重系数的设定为:
制定试验方案,通过对不同的权重系数分配进行试验,前提是待测音频信号是已知的实信号,已知相似或不相似,相似的设定特征参数的互相关函数最大值为1 ,不相似的设定为0,不同权重系数下的相似度值与已知的相似度值进行均方误差比较,在所有设定的不同权重系数组合下,均方误差最小的那一组权重系数即为最优的线性加权系数。
2.根据权利要求1所述的基于多种声音特征的相似度计算方法,其特征在于:所述预处理中的预加重处理、分帧处理、加窗函数具体为:
(1)预加重处理:声门脉冲的频率响应曲线接近于一个二阶低通滤波器,而口腔的辐射响应也接近于一个一阶高通滤波器,预加重的目的是为了补偿高频分量的损失,提升高频分量;
(2)分帧处理:由于语音信号是一个准稳态的信号,把它分成较短的帧,在每帧中可将其看成稳态信号,可用处理稳态信号的方法处理,同时,为了使一帧与另一帧之间的参数能较平稳地过渡,在两帧之间互相有部分重叠;
(3)加窗函数:加窗函数的目的是减少频域中的泄漏,将对每一帧语音乘以汉明窗或海宁窗。
3.根据权利要求1所述的基于多种声音特征的相似度计算方法,其特征在于:所述时域特征参数、频域特征参数、倒谱域特征参数具体为:
(1)提取时域特征参数:时域特征参数包括短时平均过零率和短时自相关函数;
(2)提取频域特征参数:频域特征参数是短时功率谱密度函数;
(3)提取倒谱域特征参数:倒谱域特征参数包括梅尔频率倒谱系数和线性预测倒谱系数;
把音频信号进行预处理后,分别提取音频信号每一帧的特征参数,提取的每一帧信号分别组成数据集合。
4.根据权利要求1所述的基于多种声音特征的相似度计算方法,其特征在于:所述相似度值计算包括以下步骤:
(1)若提取的音频特征参数为短时平均过零率序列,提取音频信号每一帧的短时平均过零率,所有帧的短时平均过零率组成一个序列,音频比对是通过互相关函数计算短时平均过零率序列的相似度值;
(2)若提取的音频特征参数为短时自相关函数序列,音频比对是通过互相关函数计算短时自相关函数序列每一帧的相似程度,然后对所有帧计算的相似度值求平均;
(3)若提取的音频特征参数为短时功率谱密度函数序列,音频比对是通过互相关函数计算短时功率谱密度函数序列每一帧的相似程度,然后对所有帧计算的相似度值求平均;
(4)若提取的音频特征参数为梅尔频率倒谱系数序列,音频比对是通过互相关函数计算梅尔频率倒谱系数序列每一帧的相似程度,然后对所有帧计算的相似度值求平均;
(5)若提取的音频特征参数为线性预测倒谱系数序列,音频比对是通过互相关函数计算线性预测倒谱系数序列每一帧的相似程度,然后对所有帧计算的相似度值求平均。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于昆明理工大学,未经昆明理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710933415.8/1.html,转载请声明来源钻瓜专利网。
- 上一篇:基于时延估计的回声消除方法及装置
- 下一篇:多媒体信息检测方法及装置