[发明专利]一种声纹特征的融合方法及装置有效
申请号: | 201910101748.3 | 申请日: | 2019-01-31 |
公开(公告)号: | CN109801634B | 公开(公告)日: | 2021-05-18 |
发明(设计)人: | 冯大航;陈孝良;苏少炜;常乐 | 申请(专利权)人: | 北京声智科技有限公司 |
主分类号: | G10L17/02 | 分类号: | G10L17/02;G10L17/04;G10L17/14;G10L17/18;G10L17/22 |
代理公司: | 中科专利商标代理有限责任公司 11021 | 代理人: | 周天宇 |
地址: | 100086 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 声纹 特征 融合 方法 装置 | ||
1.一种声纹特征的融合方法,包括:
提取语音频谱特征,将所述语音频谱特征作为输入,采用通用背景模型及全局差异空间矩阵提取出i-vector声纹特征;采用深度神经网络,提取x-vector声纹特征及d-vector声纹特征;
采用所述i-vector声纹特征、所述x-vector声纹特征及所述d-vector声纹特征作为样本,基于线性判别分析完成多种声纹特征的融合;
所述采用深度神经网络,提取x-vector声纹特征及d-vector声纹特征包括:
在深度神经网络中加入池化层,在池化层求平均值后,继续向前传播,在抽取后续中间层的激活值作为x-vector声纹特征;
从深度神经网络的最后一个隐层中抽取出激活值,然后经过累加求均值得到d-vector声纹特征。
2.根据权利要求1所述的融合方法,基于线性判别分析完成多种声纹特征融合包括:
计算类内散度矩阵Sw:
其中,n是类标签的个数,x(k)表示子集Di中的样本,μi表示子集Di的均值;然后计算类间散度矩阵Sb:
其中n是类标签的个数,p(i)是第i类样本的先验概率,μi表示子集Di的均值,μ表示所有样本的均值;
计算矩阵Sw-1Sb的特征值;
找出矩阵Sw-1Sb最大的k个特征值和其对应的k个特征向量(w1,w2,...,wk);
将原始样本投影到以(w1,w2,...,wk)为基向量生成的低维空间中。
3.根据权利要求2所述的融合方法,提取语音频谱特征的步骤包括:
对获取目标说话人的语音采样,利用语音端点检测算法,截取出所述目标说话人的语音采样中的实际语音数据;
从所述实际语音数据中,提取梅尔频率倒谱系数特征。
4.根据权利要求3所述的融合方法,所述基于线性判别分析完成多种声纹特征的融合之后还包括:
基于概率线性判别分析完成信道补偿,并得到信道补偿后的声纹特征。
5.根据权利要求4所述的融合方法,所述利用语音端点检测算法,截取出所述目标说话人的语音采样中的实际语音数据之前还包括:
通过音频输入模块,得到目标说话人的语音采样;
所述基于概率线性判别分析完成信道补偿,并得到信道补偿后的声纹特征之后还包括:
对信道补偿后的声纹特征进行输出。
6.一种声纹特征的融合装置,包括:
UBM模型及T矩阵模块,用于将语音频谱特征作为输入,采用通用背景模型及全局差异空间矩阵提取出i-vector声纹特征;
DNN模块,用于将语音频谱特征作为输入,采用加入池化层的DNN网络,在池化层求平均值后,继续向前传播,抽取后续中间层的激活值作为x-vector声纹特征;并于最后一个隐层中抽取出激活值,经过加权得到新的d-vector声纹特征;
线性判别分析模块,连接到所述UBM模型及T矩阵模块及DNN模块,采用线性判别分析完成多种声纹特征的融合。
7.根据权利要求6所述的融合装置,还包括:
语音端点检测模块,用于对获取的目标说话人的语音采样数据进行处理,采用语音端点检测算法,截取出所述目标说话人的语音采样中的实际语音数据;
语音频谱特征提取模块,连接到所述语音端点检测模块、UBM模型及T矩阵模块及DNN模块,用于从所述实际语音数据中,提取梅尔频率倒谱系数特征作为所述目标说话人的语音频谱特征。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京声智科技有限公司,未经北京声智科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910101748.3/1.html,转载请声明来源钻瓜专利网。