[发明专利]基于渐进式神经网络多维语音信息识别系统及其方法有效
申请号: | 201810915685.0 | 申请日: | 2018-08-13 |
公开(公告)号: | CN108962247B | 公开(公告)日: | 2023-01-31 |
发明(设计)人: | 陈海霞;杨震 | 申请(专利权)人: | 南京邮电大学 |
主分类号: | G10L15/22 | 分类号: | G10L15/22;G10L15/16;G10L15/06;G10L25/63 |
代理公司: | 南京苏高专利商标事务所(普通合伙) 32204 | 代理人: | 颜盈静 |
地址: | 210003 *** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 渐进 神经网络 多维 语音 信息 识别 系统 及其 方法 | ||
1.一种基于渐进式神经网络的多维语音信息识别方法,其特征在于:包括以下步骤:
S1:对整个语音数据库提取i-vector特征向量,配置神经网络模型参数,隐含层采用激活函数处理,通过前向传播的方式,对特征向量进行预训练,采用梯度下降法反向传播不断对权重参数进行微调,最后获得性别识别的分类结果;
S2:在训练集中,针对整个男性语音样本,在性别识别的基础上,利用渐进式神经网络完成情感识别和身份识别的相互迁移学习,输出男性情感分类标签;针对整个女性语音样本,在性别识别的基础上,利用渐进式神经网络完成情感识别和身份识别的相互迁移学习,输出女性情感分类标签;
S3:整合多维语音识别的结果;
其中,所述S2中,身份识别信息和情感识别相互迁移学习时,把情感识别作为主任务,身份识别作为辅助任务,构造一个用来训练辅助任务的神经网络,固定上一个任务的神经网络的参数,添加一个随机初始化的新模型,作为第二个多层的神经网络,将训练辅助任务的神经网络的每一层通过横向连接的方式接入到第二个多层的神经网络主任务的每一层作为额外输入,使用反向传播学习第二个多层的神经网络的参数,通过soft-max层进行分类得到识别结果。
2.根据权利要求1所述的一种基于渐进式神经网络的多维语音信息识别方法,其特征在于:所述S1中,提取i-vector特征向量,具体实施如下:在梅尔频率倒谱系数特征的基础上,结合高斯混合模型,通过最大后验概率标准对通用背景模型进行训练,同时利用通用背景模型调整每个语句以获得相同比例的另一个高斯混合模型,通过投影到总体子空间矩阵中提取固定长度的i-vector语音特征。
3.根据权利要求1所述的一种基于渐进式神经网络的多维语音信息识别方法,其特征在于:所述渐进式神经网络为单一的多层神经网络模型,第i层隐层的输出为ni是第i层的神经元个数,当切换到神经网络主任务时,前一个神经网络第i-1层的输出hi-1(1)和当前神经网络i-1层的输出hi-1(2)同时作为输入,通过横向连接的方式接入到当前神经网络的第i层中,第i层输出为hi(2),第k个神经网络的表达式为:
其中,是第k列的第i层的权重矩阵,是第k列的第i层的偏差系数矩阵,是从第j列的第i-1层到第k列的第i层的横向连接,h0是神经网络的输入特征向量,f(·)是对激励向量进行元素级计算的激活函数。
4.根据权利要求1所述的一种基于渐进式神经网络的多维语音信息识别方法,其特征在于:给定一个说话人语音序列O={o1,o2,…,on},n表示输入的语音特征帧数,i-vector特征向量用φ来表示为:
其中,L为后验方差:
其中,其中I是单位矩阵,T为从训练集中学习得到的变异矩阵,是一个CF×M的矩阵,C是通用背景模型中混合的数量,F是声学特征向量的维数,M是矢量变量的大小;
Nc是通过对整个语音序列上的帧γc(t)求和,得到的第c个高斯计算的零阶统计量,如下所示:
Fc是关于UBM的以均值μc为中心,以协方差∑c为白化的一阶统计量。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京邮电大学,未经南京邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810915685.0/1.html,转载请声明来源钻瓜专利网。