[发明专利]一种基于独立向量分析的语音特征融合的说话人识别方法在审
申请号: | 202110972388.1 | 申请日: | 2021-08-24 |
公开(公告)号: | CN113793614A | 公开(公告)日: | 2021-12-14 |
发明(设计)人: | 张烨;马彪 | 申请(专利权)人: | 南昌大学 |
主分类号: | G10L17/02 | 分类号: | G10L17/02;G10L17/06;G10L25/45;G10L25/24;G10L25/03 |
代理公司: | 北京众合诚成知识产权代理有限公司 11246 | 代理人: | 王焕巧 |
地址: | 330000 江西省*** | 国省代码: | 江西;36 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 独立 向量 分析 语音 特征 融合 说话 识别 方法 | ||
本发明提供了一种基于独立向量分析的语音特征融合的说话人识别方法。该方法首先将语音信号的时域特征和频域特征分别构成时域特征矩阵和频域特征矩阵。然后,将时域特征矩阵和频域特征矩阵构成一个特征张量。利用独立向量分析,从此特征张量中提取融合特征,建立说话人模型,实现说话人的识别。本发明采用独立向量分析将语音信号的时域特征和频域特征融合,构成一个新的语音信号的融合特征和说话人的模型,可增强不同类特征之间的相关性,同时减小同类特征之间的冗余性,提高说话人识别系统的性能。
技术领域
本发明属于语音处理技术领域。涉及一种语音特征融合的说话人识别方法。
背景技术
语音特征的提取和融合技术可广泛用于语音识别和说话人识别等领域。语音信号主要有两大类时域特征和频域特征。时域特征是指在时域,直接从语音信号中提取语音特征,如短时能量、短时振幅、短时过零率、短时自相关、线性预测编码(Linear PredictiveCodings,LPCs)等。频域特征是指通过傅里叶变换将语音信号从时域转换到频域,在频域提取语音信号的特征,如梅尔频率倒谱系数(Mel-Frequency Cepstral Coefficients,MFCCs)、对数振幅谱(Log-Magnitude Spectral Feature,LOG-MAG)、感知线性预测(Perceptual Linear Prediction,PLP)等。语音特征的融合是指将不同类型的语音信号的特征按一定的方法组合构成一个新的特征集,也就是融合特征,利用语音信号的融合特征可以提高说话人识别系统的性能。目前,语音信号特征的融合方法通常是将提取出的不同的语音特征直接级联构成语音的融合特征,不同类特征之间具有互补性,但是,同类特征之间具有一定的相关性,会降低说话人识别系统的性能。
发明内容
本发明的目的在于提供一种基于独立向量分析的语音特征融合的说话人识别方法,以解决上述背景技术中提出的问题。
该方法利用汉明窗将语音信号分成多个相互重叠的帧,假设帧的个数为T,从这些语音帧中,提取语音的不同种类的特征,即时域特征(LPCs)和频域特征(MFCCs)。将语音信号的时域特征或频域特征分别看作是由多个未知独立变量和未知的混合系统的线性混合,可表示为:
x[k](t)=A[k]s[k](t) (1)
上式中,为第t帧、第k类的特征向量,k∈{1,...,K},K为不同类语音特征的个数;t∈{1,...,T};为未知的混合矩阵,即混合系统。为未知第t帧、第k类语音信号的未知的独立向量,也可以看作独立的源信号。上标T表示转置。将提取的所有帧的同一类型的特征向量构成特征矩阵,即再将这些不同类特征矩阵构成一个特征张量,即采用独立向量分析提取独立向量作为融合特征,同时得到解混张量作为说话人的模型。具体过程如下。
①将说话人的语音信号分帧,提取每一帧的时域特征向量和频域特征向量,将提取出的特征向量分别构成K个特征矩阵,即其中,x[k](t)表示第k个特征类型的第t帧的特征向量,N表示特征的维数,T表示语音帧的个数。
②将K个矩阵X[k]并联成一个张量是一种没有使用独立向量分析的融合特征,为了和提出的融合特征相区别,被记为特征张量。对特征张量采用独立向量分析提取独立向量,即
上式中,为融合特征,其中,为独立向量的估计。是由K个解混矩阵W[k]并联构成的解混张量。由于对每个说话人是不同的,可以看作说话人模型。
③利用优化函数来估计独立向量和解混张量,即:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南昌大学,未经南昌大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110972388.1/2.html,转载请声明来源钻瓜专利网。