[发明专利]一种融入静态分量的动态声纹特征提取方法有效
申请号: | 202110257723.X | 申请日: | 2021-03-09 |
公开(公告)号: | CN112951245B | 公开(公告)日: | 2023-06-16 |
发明(设计)人: | 刘涛;刘斌;黄金国 | 申请(专利权)人: | 江苏开放大学(江苏城市职业学院) |
主分类号: | G10L17/02 | 分类号: | G10L17/02;G10L25/24 |
代理公司: | 南京经纬专利商标代理有限公司 32200 | 代理人: | 田凌涛 |
地址: | 210000 江苏*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 融入 静态 分量 动态 声纹 特征 提取 方法 | ||
1.一种融入静态分量的动态声纹特征提取方法,用于对目标语音数据进行声纹特征提取,其特征在于,方法包括如下步骤:
步骤1:对目标语音数据进行预处理,获取预处理后的目标语音数据;
在步骤1中,对目标语音数据进行预处理的方法包括:将目标语音数据分为T帧,获取多帧语音数据;
步骤2:使用傅里叶变换和Mel滤波器组对预处理后的目标语音进行处理,获取目标语音数据的MFCC系数;
在步骤2中,使用傅里叶变换和Mel滤波器组对预处理的目标语音进行处理的方法包括如下步骤:
使用傅里叶变换分别对每帧语音数据进行处理,获取各帧语音数据的频谱;
将各帧语音数据的频谱输入Mel滤波器组中,获取各帧语音数据的MFCC系数,即目标语音数据的MFCC系数;
步骤3:将目标语音数据的MFCC系数带入融入静态分量的动态声纹特征提取模型中,获取目标语音数据的MFCC动态特征差分参数矩阵,将该矩阵定义为目标语音数据的动态声纹特征;
在步骤3中,所述融入静态分量的动态声纹特征提取模型为:
其中,d(l,t)为
2.根据权利要求1所述的融入静态分量的动态声纹特征提取方法,其特征在于,根据如下公式:
获取MFCC系数中第t帧语音数据的第l阶特征系数C(l,t);
其中,L为MFCC系数的阶数,m为Mel滤波器组的序号,S(m)为第m个Mel滤波器组输出的对数能量。
3.根据权利要求2所述的融入静态分量的动态声纹特征提取方法,其特征在于,根据如下公式:
获取第m个Mel滤波器组输出的对数能量S(m);
其中,M表示滤波器组的总个数,N表示第t帧语音数据的数据长度,X(k)表示与第k个频率所对应的功率,Hm(k)表示与第k个频率所对应第m个Mel滤波器组的传递函数。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于江苏开放大学(江苏城市职业学院),未经江苏开放大学(江苏城市职业学院)许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110257723.X/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种发酵豆食的制备方法
- 下一篇:虹膜图像处理方法、装置、设备及存储介质