[发明专利]声学模型自适应方法及系统在审
申请号: | 201610156697.0 | 申请日: | 2016-03-18 |
公开(公告)号: | CN105590625A | 公开(公告)日: | 2016-05-18 |
发明(设计)人: | 李轶杰;刘青松;许东星 | 申请(专利权)人: | 上海语知义信息技术有限公司 |
主分类号: | G10L15/07 | 分类号: | G10L15/07 |
代理公司: | 上海唯源专利代理有限公司 31229 | 代理人: | 曾耀先 |
地址: | 200031 上海市徐汇*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 声学 模型 自适应 方法 系统 | ||
1.一种声学模型自适应方法,其特征在于,包括:
在声学模型训练集上,对每段语音数据基于深度神经网络模型提取与 说话人相关的身份认证矢量;
在所述声学模型训练集上,对每段语音数据提取声学特征参数;以及
将从所述语音数据中提取的所述身份认证矢量和所述声学特征参数 拼接在一起,并作为深度神经网络模型的输入进行训练以形成声学识别模 型。
2.如权利要求1所述的声学模型自适应方法,其特征在于,对每段 语音数据基于深度神经网络模型提取与说话人相关的身份认证矢量,包 括:
对所述语音数据提取出39维麦尔倒谱系数,并根据计算公式提取所 述身份认证矢量,所述计算公式为:
M[ZF×1]=n[ZF×1]+T[ZF×D]i[D×1](一)
式一中:M为说话人语音的高斯混合模型均值超矢量,n为深度神经 网络模型超矢量,T为总变异空间,i为服从N(0,l)分布的身份认证矢 量,Z为混合高斯模型的混合度或深度神经网络的senones个数,F为麦 尔倒谱系数的维数,F=39维,D为总变异空间的维度;
D的范围在100维至300维之间。
3.如权利要求1或2所述的声学模型自适应方法,其特征在于,对 每段语音数据提取声学特征参数,包括:
对每段语音数据中的每一语音帧提取90维声学特征参数,所述90 维声学特征参数组成包括:29维滤波器组特征及其一阶二阶差分,1维基 频参数及其一阶二阶差分。
4.如权利要求3所述的声学模型自适应方法,其特征在于,将从所 述语音数据中提取的所述身份认证矢量和所述声学特征参数拼接在一起, 包括:
将所述语音数据中的当前语音帧和其前后5个语音帧的声学特征参 数拼接在一起以形成990维声学特征参数;
将与所述当前语音帧的语音数据对应的身份认证矢量与990维声学 特征参数拼接在一起。
5.如权利要求1所述的声学模型自适应方法,其特征在于,还包括 在语音识别阶段,依据所述声学识别模型进行语音识别以形成识别结果, 包括:
提取待识别语音的身份认证矢量以形成待识别的身份认证矢量;
提取待识别语音中当前语音帧和其前后5个语音帧的声学特征参数 拼接在一起以形成待识别的声学特征参数;
将所述待识别的身份认证矢量和所述待识别的声学特征参数拼接在 一起并输入所述声学识别模型,并经所述声学识别模型进行解码以得到识 别结果。
6.一种声学模型自适应系统,其特征在于,包括:
声学模型训练集单元,用于存储不同说话人的语音数据;
身份认证矢量提取单元,与所述声学模型训练集单元连接,用于对所 述声学模型训练集单元中的每段语音数据基于深度神经网络模型提取与 说话人相关的身份认证矢量;
声学特征提取单元,与所述声学模型训练集单元连接,用于对所述声 学模型训练集单元中的每段语音数据提取声学特征参数;以及
训练模型单元,与所述身份认证矢量提取单元和所述声学特征提取单 元连接,用于将所述身份认证矢量和所述声学特征参数拼接在一起并作为 深度神经网络模型的输入对所述深度神经网络模型进行训练,以形成声学 识别模型。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海语知义信息技术有限公司,未经上海语知义信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201610156697.0/1.html,转载请声明来源钻瓜专利网。