[发明专利]自适应语音识别方法、系统、设备及存储介质在审
申请号: | 202111482304.2 | 申请日: | 2021-12-06 |
公开(公告)号: | CN114141243A | 公开(公告)日: | 2022-03-04 |
发明(设计)人: | 郭武;丁枫林 | 申请(专利权)人: | 中国科学技术大学 |
主分类号: | G10L15/18 | 分类号: | G10L15/18;G10L15/183;G10L15/06 |
代理公司: | 北京凯特来知识产权代理有限公司 11260 | 代理人: | 郑立明;韩珂 |
地址: | 230026 安*** | 国省代码: | 安徽;34 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 自适应 语音 识别 方法 系统 设备 存储 介质 | ||
1.一种自适应语音识别方法,其特征在于,包括:
训练阶段,将多个语音序列构成的训练数据输入至待训练的基于CTC的声学模型,通过基于CTC的声学模型对每一语音序列进行编码,并将编码获得的深度特征序列转换为概率分布序列;其中,转换过程中每一深度特征均通过声学模型的若干隐藏层进行激活,最后一个隐藏层输出的隐藏特征被转换为相应的概率分布;根据转换得到的概率分布序列与给定的真实分布序列的差异构建CTC损失函数,并且,对于语音序列对应的不同说话人,利用转换过程中,至少一个隐藏层输出的隐藏特征,构建说话人方差损失函数;结合两部分损失函数进行训练;
之后,将待识别的语音序列输入至训练后的基于CTC的声学模型,获得的概率分布序列即为语音识别结果。
2.根据权利要求1所述的一种自适应语音识别方法,其特征在于,所述利用转换过程中,至少一个隐藏层输出的隐藏特征,构建说话人方差损失函数包括:
将单个语音序列表示为:X={x1,x2,...,xT},其中,xt表示第t帧语音数据,t=1,2,...,T,T表示总帧数,即语音序列的长度;
对语音序列编码,获得相应的深度特征序列,表示为:F={f1,f2,...,fT},ft表示第t帧语音数据对应的深度特征;每一深度特征均通过声学模型的若干隐藏层进行激活,提取至少一个隐藏层输出的隐藏特征;将单个语音序列对应的说话人记为i,第t个深度特征通过第l层隐藏层输出的隐藏特征表示为计算出说话人i的第l层隐藏层的表征向量将训练阶段若干语音序列构成的一包训练数据中对应的说话人总数记为k,则说话人方差损失函数表示为:
其中,n表示说话人方差损失函数计算时所涉及的隐藏层层数,表示k个说话人对应第l层隐藏层的类间方差。
3.根据权利要求2所述的一种自适应语音识别方法,其特征在于,所述利用转换过程中,所述计算出说话人i的第l层隐藏层的表征向量的公式包括:
上式中,1[st=i]是指示函数,用于判断当前处理的语音序列对应的说话人st是否为说话人i,若是,则值为1,否则为0。
4.根据权利要求2所述的一种自适应语音识别方法,其特征在于,所述利用转换过程中,所述说话人方差损失函数中,计算说话人的类间方差,表示为:
其中,表示k个说话人对应第l层隐藏层的类别均值,通过下式计算:
5.一种自适应语音识别系统,其特征在于,包括:
损失函数构建与训练模块,用于在训练阶段,将多个语音序列构成的训练数据输入至待训练的基于CTC的声学模型,通过基于CTC的声学模型对每一语音序列进行编码,并将编码获得的深度特征序列转换为概率分布序列;其中,转换过程中每一深度特征均通过声学模型的若干隐藏层进行激活,最后一个隐藏层输出的隐藏特征被转换为相应的概率分布;根据转换得到的概率分布序列与给定的真实分布序列的差异构建CTC损失函数,并且,对于语音序列对应的不同说话人,利用转换过程中,至少一个隐藏层输出的隐藏特征,构建说话人方差损失函数;结合两部分损失函数进行训练;
自适应语音识别模块,用于将待识别的语音序列输入至训练后的基于CTC的声学模型,获得的概率分布序列即为语音识别结果。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学技术大学,未经中国科学技术大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111482304.2/1.html,转载请声明来源钻瓜专利网。