[发明专利]特定人群识别方法、电子装置及计算机可读存储介质有效
申请号: | 201810813196.4 | 申请日: | 2018-07-23 |
公开(公告)号: | CN109119069B | 公开(公告)日: | 2020-08-14 |
发明(设计)人: | 郑能恒;林吉 | 申请(专利权)人: | 深圳大学 |
主分类号: | G10L15/02 | 分类号: | G10L15/02;G10L15/06;G10L15/08;G10L15/16;G10L25/24 |
代理公司: | 深圳市恒申知识产权事务所(普通合伙) 44312 | 代理人: | 袁文英 |
地址: | 518060 广东*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 特定 人群 识别 方法 电子 装置 计算机 可读 存储 介质 | ||
1.一种特定人群识别方法,其特征在于,应用于特定人群识别系统,所述系统包括:基于ivector的支持向量子系统,基于ivector的逻辑回归子系统,语音时态神经网络子系统;
方法包括:
获取待识别的声音数据,并提取所述声音数据的变化因子特征;
通过所述基于ivector的支持向量子系统中的N种类别的分类器,根据所述变化因子特征确定第一初步预测结果,所述N为大于一的整数;
通过所述基于ivector的逻辑回归子系统中的N-1级的逻辑回归分类器,根据所述变化因子特征确定第二初步预测结果;
通过所述语音时态神经网络子系统,根据声音数据的滤波器组FilterBank特征,对所述声音数据的所属类别进行预测,得到第三初步预测结果;
根据预设的权重,所述第一初步预测结果,所述第二初步预测结果以及所述第三初步预测结果进行综合判定,获得所述声音数据的所属类别的综合预测结果。
2.根据权利要求1所述的方法,其特征在于,
所述基于ivector的支持向量子系统包括N个类别的分类器;
所述基于ivector的支持向量子系统的训练方法包括:
分别提取N种类别的声音数据的梅尔频率倒谱系数MFCC特征;
根据所述MFCC特征训练通用背景模型UBM,并获得所述通用背景模型的均值超矢量;
对所述通用背景模型的高斯混合模型GMM进行参数调整,获得所述声音数据中每句话的GMM,以及所述每句话的均值超矢量;
根据所述每句话的均值超矢量,所述通用背景模型的均值超矢量以及总变化空间矩阵求解所述声音数据的变化因子特征;
采用线性判别分析对所述变化因子特征进行信道补偿,得到变化因子的特征集,所述变化因子的特征集包括N个特征子集;
根据所述变化因子的特征集分别训练N个类别的分类器,其中,对于任一个所述分类器的训练,将当前分类器对应的特征子集作为正类训练数据,其余的N-1个分类器对应的特征子集作为反类训练数据。
3.根据权利要求1所述的方法,其特征在于,
所述基于ivector的逻辑回归子系统包括N-1级的逻辑回归分类器;
所述基于ivector的逻辑回归子系统的训练方法包括:
分别提取N种类别的声音数据的MFCC特征;
根据所述MFCC特征训练通用背景模型,并获得所述通用背景模型的均值超矢量;
对所述通用背景模型的GMM进行参数调整,获得所述声音数据中每句话的GMM,以及所述每句话的均值超矢量;
根据所述每句话的均值超矢量,所述通用背景模型的均值超矢量以及总变化空间矩阵求解所述声音数据的变化因子特征;
采用线性判别分析对所述变化因子特征进行信道补偿,得到变化因子的特征集,所述变化因子的特征集包括N个特征子集;
根据所述变化因子的特征集分别训练N-1级基于ivector的逻辑回归子系统,其中,第一级的基于ivector的逻辑回归子系统以任一特征子集作为正类训练数据,其余的N-1个特征子集作为反类训练数据;第二级的基于ivector的逻辑回归子系统以上一级的N-1个反类训练数据中任一特征子集集作为正类训练数据,其余的N-2个特征子集作为反类训练数据;以此类推,直至完成N-1个基于ivector的逻辑回归子系统的分级训练。
4.根据权利要求1所述的方法,其特征在于,
所述语音时态神经网络子系统包括:phonetic语音深度神经网络和LSTM长短期记忆卷积神经网络;所述phonetic语音深度神经网络是通过自动语音识别ASR数据训练得到,通过所述phonetic语音深度神经网络得到音素特征,所述LSTM长短期记忆卷积神经网络是通过所述音素特征训练得到,训练完成后,通过LSTM卷积神经网络对声音数据的所述音素特征进行声音类别预测;
所述音素特征通过以下方式得到:分别提取N种类别的声音数据的滤波器组FilterBank特征,然后利用phonetic语音深度神经网络从所述FilterBank特征中提取得到音素特征。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳大学,未经深圳大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810813196.4/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种语言识别系统
- 下一篇:一种语音端点检测方法、装置、设备及存储介质