[发明专利]一种融入静态分量的动态声纹特征提取方法有效

专利信息
申请号: 202110257723.X 申请日: 2021-03-09
公开(公告)号: CN112951245B 公开(公告)日: 2023-06-16
发明(设计)人: 刘涛;刘斌;黄金国 申请(专利权)人: 江苏开放大学(江苏城市职业学院)
主分类号: G10L17/02 分类号: G10L17/02;G10L25/24
代理公司: 南京经纬专利商标代理有限公司 32200 代理人: 田凌涛
地址: 210000 江苏*** 国省代码: 江苏;32
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 融入 静态 分量 动态 声纹 特征 提取 方法
【权利要求书】:

1.一种融入静态分量的动态声纹特征提取方法,用于对目标语音数据进行声纹特征提取,其特征在于,方法包括如下步骤:

步骤1:对目标语音数据进行预处理,获取预处理后的目标语音数据;

在步骤1中,对目标语音数据进行预处理的方法包括:将目标语音数据分为T帧,获取多帧语音数据;

步骤2:使用傅里叶变换和Mel滤波器组对预处理后的目标语音进行处理,获取目标语音数据的MFCC系数;

在步骤2中,使用傅里叶变换和Mel滤波器组对预处理的目标语音进行处理的方法包括如下步骤:

使用傅里叶变换分别对每帧语音数据进行处理,获取各帧语音数据的频谱;

将各帧语音数据的频谱输入Mel滤波器组中,获取各帧语音数据的MFCC系数,即目标语音数据的MFCC系数;

步骤3:将目标语音数据的MFCC系数带入融入静态分量的动态声纹特征提取模型中,获取目标语音数据的MFCC动态特征差分参数矩阵,将该矩阵定义为目标语音数据的动态声纹特征;

在步骤3中,所述融入静态分量的动态声纹特征提取模型为:

其中,d(l,t)为t语音数据的第l阶动态声纹特征提取结果,d(l,t)构成目标语音数据的MFCC动态特征差分参数矩阵中第l阶的第t个元素,C(l,t)为MFCC系数中第l阶的第t个参数,C(l,t+1)为MFCC系数中第l阶的第t+1个参数,C(l,t+k)为第l阶的第t+k个参数,C(l,t-k)为MFCC系数中为第l阶的第t-k个参数,k为对第t帧语音数据进行傅里叶变换后的频率序数,K为对第t帧语音数据进行傅里叶变换时的预设总步长。

2.根据权利要求1所述的融入静态分量的动态声纹特征提取方法,其特征在于,根据如下公式:

获取MFCC系数中第t帧语音数据的第l阶特征系数C(l,t);

其中,L为MFCC系数的阶数,m为Mel滤波器组的序号,S(m)为第m个Mel滤波器组输出的对数能量。

3.根据权利要求2所述的融入静态分量的动态声纹特征提取方法,其特征在于,根据如下公式:

获取第m个Mel滤波器组输出的对数能量S(m);

其中,M表示滤波器组的总个数,N表示第t帧语音数据的数据长度,X(k)表示与第k个频率所对应的功率,Hm(k)表示与第k个频率所对应第m个Mel滤波器组的传递函数。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于江苏开放大学(江苏城市职业学院),未经江苏开放大学(江苏城市职业学院)许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202110257723.X/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top