[发明专利]基于渐进式神经网络多维语音信息识别系统及其方法有效
申请号: | 201810915685.0 | 申请日: | 2018-08-13 |
公开(公告)号: | CN108962247B | 公开(公告)日: | 2023-01-31 |
发明(设计)人: | 陈海霞;杨震 | 申请(专利权)人: | 南京邮电大学 |
主分类号: | G10L15/22 | 分类号: | G10L15/22;G10L15/16;G10L15/06;G10L25/63 |
代理公司: | 南京苏高专利商标事务所(普通合伙) 32204 | 代理人: | 颜盈静 |
地址: | 210003 *** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 渐进 神经网络 多维 语音 信息 识别 系统 及其 方法 | ||
本发明提供了一种基于渐进式神经网络的多维语音信息识别系统及其方法,在基线系统的基础上,引入渐进式神经网络,所述基线系统以i‑vector特征向量作为输入,其包括三个SNN识别模型,分别进行性别识别、情感信息识别和身份信息识别,在性别识别的基础上,渐进式神经网络将性别相关的情感信息识别的SNN识别模型和性别相关的身份信息识别的SNN识别模型结合在一起,信息相互迁移,构建得到识别系统。
技术领域
本发明属于多维语音信息识别技术领域,具体涉及一种基于渐进式神经网络的多维语音信息识别系统及其方法来识别多种语音信息,具体为性别、情感和说话人身份信息。
背景技术
语音信号是人类之间进行信息传递和交流的主要工具,日常情景下一个说话人的语音往往不但传达语义信息同时也携带了说话者的情绪状态,身份,地理位置,性别等信息。这意味着我们收集的语音信号实际上是一个混合了多种信息的信号。但目前语音识别研究主要集中在识别单一信息,不利于理解语音的真实含义。多维说话人信息的同时识别研究是人机交互的一个迫切任务。然而,当前的研究技术中很少有识别系统能够同时识别说话者的身份,年龄,性别和情感等多维信息。在以前的研究工作中,我们创造性地构建了基于性别相关多维信息识别的基线系统作为多维识别的参考模型,证明了多维信息同时识别的可行性和有效性。然而,这项工作没有充分利用单任务语音信息之间的相关性。
发明内容
本发明根据现有基线系统技术的不足,提出了一种基于渐进式神经网络的多维语音信息识别系统及其方法,将来自其他辅助语音信息识别任务的知识,迁移学习到另一个语音信息识别模型中,进而来增强情感、身份模型的识别性能,实现多维语音信息的识别。
本发明公开了一种基于渐进式神经网络的多维语音信息识别系统,在基线系统的基础上,引入渐进式神经网络,所述基线系统以i-vector特征向量作为输入,利用SNN模型,进行性别、情感、身份多维信息的识别,在性别识别的基础上,渐进式神经网络将性别相关的情感信息识别和性别相关的身份信息识别结合在一起,信息相互迁移,构建得到识别系统。
给定一个说话人语音序列O={o1,o2,…,on},n表示输入的语音特征帧数,提取的i-vector特征向量用φ来表示为:
其中,L为后验方差:
其中,其中I是单位矩阵,T为从训练集中学习得到的变异矩阵,是一个CF×M的矩阵,C是通用背景模型中混合的数量,F是声学特征向量的维数,M是矢量变量的大小;
Nc是通过对整个语音序列上的帧γc(t)求和,得到的第c个高斯计算的零阶统计量,如下所示:
Fc是关于UBM的以均值μc为中心,以协方差∑c为白化的一阶统计量。
所述渐进式神经网络为单一的多层神经网络模型,第i层隐层的输出为ni是第i层的神经元个数,当切换到神经网络主任务时,前一个神经网络第i-1层的输出hi-1(1)和当前神经网络i-1层的输出hi-1(2)同时作为输入,通过横向连接的方式接入到当前神经网络的第i层中,第i层输出为hi(2),第k个神经网络的表达式为:
其中,是第k列的第i层的权重矩阵,是第k列的第i层的偏差系数矩阵,是从第j列的第i-1层到第k列的第i层的横向连接,h0是神经网络的输入特征向量,f(·)是对激励向量进行元素级计算的激活函数。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京邮电大学,未经南京邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810915685.0/2.html,转载请声明来源钻瓜专利网。