[发明专利]语音模型训练方法、说话人识别方法、装置、设备及介质在审
申请号: | 201810549432.6 | 申请日: | 2018-05-31 |
公开(公告)号: | CN108777146A | 公开(公告)日: | 2018-11-09 |
发明(设计)人: | 涂宏 | 申请(专利权)人: | 平安科技(深圳)有限公司 |
主分类号: | G10L17/04 | 分类号: | G10L17/04;G10L17/06 |
代理公司: | 深圳众鼎专利商标代理事务所(普通合伙) 44325 | 代理人: | 谭果林 |
地址: | 518000 广东省深*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 声纹特征 语音模型 通用背景模型 说话人识别 语音识别 语音数据 向量 自适应处理 获取目标 神经网络 训练语音 | ||
1.一种语音模型训练方法,其特征在于,包括:
基于预先准备的训练语音数据进行通用背景模型训练,获取通用背景模型;
基于所述通用背景模型对目标说话人语音数据进行自适应处理,获取相对应的目标声纹特征模型;
基于所述目标声纹特征模型,获取所述目标说话人语音数据的目标声纹特征向量;
将所述目标声纹特征向量输入到深度神经网络中进行训练,获取目标说话人语音识别模型。
2.根据权利要求1所述的语音模型训练方法,其特征在于,所述基于预先准备的训练语音数据进行通用背景模型训练,获取通用背景模型,包括:
基于所述训练语音数据,获取训练语音特征;
采用所述训练语音特征进行通用背景模型训练,获取通用背景模型;
其中,所述基于所述训练语音数据,获取训练语音特征,包括:
对所述训练语音数据进行预处理;
对预处理后的所述训练语音数据作快速傅里叶变换,获取训练语音数据的频谱,并根据所述频谱获取训练语音数据的功率谱;
采用梅尔刻度滤波器组处理所述训练语音数据的功率谱,获取训练语音数据的梅尔功率谱;
在所述梅尔功率谱上进行倒谱分析,获取训练语音数据的梅尔频率倒谱系数,并将获取到的梅尔频率倒谱系数确定为所述训练语音特征。
3.根据权利要求1所述的语音模型训练方法,其特征在于,所述基于所述通用背景模型对目标说话人语音数据进行自适应处理,获取相对应的目标声纹特征模型,包括:
采用奇异值分解对所述通用背景模型进行特征降维处理,获取目标背景模型;
采用所述目标背景模型对所述目标说话人语音数据进行自适应处理,获取相对应的目标声纹特征模型。
4.根据权利要求1所述的语音模型训练方法,其特征在于,所述基于所述目标声纹特征模型,获取所述目标说话人语音数据的目标声纹特征向量,包括:
基于所述目标声纹特征模型,获取目标说话人语音数据的声纹特征向量空间;
根据所述声纹特征向量空间,获取目标声纹特征向量。
5.根据权利要求1所述的语音模型训练方法,其特征在于,所述将所述目标声纹特征向量输入到深度神经网络中进行训练,获取目标说话人语音识别模型,包括:
初始化深度神经网络模型;
将所述目标声纹特征向量分组输入到所述深度神经网络模型中,根据前向传播算法获取深度神经网络模型的输出值,目标声纹特征向量的第i组样本在深度神经网络模型的当前层的输出值用公式表示为ai,l=σ(Wlai,l-1+bl),其中,a为输出值,i表示输入的目标声纹特征向量的第i组样本,l为深度神经网络模型的当前层,σ为激活函数,W为权值,l-1为深度神经网络模型的当前层的上一层,b为偏置;
基于深度神经网络模型的输出值进行误差反传,更新深度神经网络模型各层的权值和偏置,获取目标说话人语音识别模型,其中,更新权值的计算公式为l为深度神经网络模型的当前层,W为权值,α为迭代步长,m为输入的目标声纹特征向量的样本总数,δi,l为当前层的灵敏度;zi,l=Wlai,l-1+bl,ai,l-1为上一层的输出,T表示矩阵转置运算,表示两个矩阵对应元素相乘的运算,更新偏置的计算公式为
6.一种说话人识别方法,其特征在于,包括:
获取待识别语音数据,所述待识别语音数据与用户标识相关联;
基于通用背景模型对所述待识别语音数据进行自适应处理,获取待识别声纹特征模型;
基于所述待识别声纹特征模型,获取对应的待识别声纹特征向量;
根据所述用户标识,获取与所述用户标识相对应的目标说话人语音识别模型,采用所述目标说话人语音识别模型对所述待识别声纹特征向量进行识别,获取识别概率值;若所述识别概率值大于预设概率值,则确定为用户本人;其中,所述目标说话人语音识别模型是采用权利要求1-5任一项所述语音模型训练方法获取到的。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于平安科技(深圳)有限公司,未经平安科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810549432.6/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种可穿戴设备及数据处理方法
- 下一篇:一种光盘批量抓取装置及其工作方法