[发明专利]一种面向航天专业领域的语音识别系统和方法在审
申请号: | 202011139217.2 | 申请日: | 2020-10-22 |
公开(公告)号: | CN112466282A | 公开(公告)日: | 2021-03-09 |
发明(设计)人: | 温正棋;李博;刘进涛;任斌;李振龙;周仔恒 | 申请(专利权)人: | 北京仿真中心 |
主分类号: | G10L15/02 | 分类号: | G10L15/02;G10L15/06;G10L15/08;G10L15/26;G10L19/00 |
代理公司: | 北京正理专利代理有限公司 11257 | 代理人: | 付生辉 |
地址: | 100854 北京*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 面向 航天 专业 领域 语音 识别 系统 方法 | ||
1.一种面向航天专业领域的语音识别系统,其特征在于,包括:
由第一长短时记忆网络构成的编码器,用于输入基于信号处理的特征提取器提取的声学特征序列,经过编码后,输出声学特征序列对应的隐藏表示;
由第二长短时记忆网络构成的预测网络,首先输入文本序列起始符号sos,经过预测网络,输出文本序列第一个词对应的隐藏表示,之后每次都输入上一个词的嵌入向量,经过预测网络后输出预测后的词对应的隐藏表示;
由第三长短时记忆网络构成的偏置编码网络,用于输入航天领域的专业词汇序列,经过编码后,输出航天领域的专业词汇序列对应的隐藏表示;
由多层感知机构成的融合网络,输入所述由第一长短时记忆网络构成的编码器、由第二长短时记忆网络构成的预测网络和由第三长短时记忆网络构成的偏置网络三个网络的输出结果,预测出文本序列的下一个词。
2.根据权利要求1所述的系统,其特征在于,所述由第一长短时记忆网络构成的编码器根据如下公式编码提取的声学特征序列:
ht=LSTM(ht-1,xt)
其中,LSTM为长短时记忆网络的单元函数,ht为t时刻的声学特征序列对应的隐藏表示,ht-1为第t-1时刻的声学特征序列对应的隐藏表示,xt为t时刻的声学特征序列。
3.根据权利要求1所述的系统,其特征在于,所述由第二长短时记忆网络构成的预测网络根据如下公式,得到对应文本序列中每个词的隐藏表示:
cj=LSTM(cj-1,yj)
其中,LSTM为长短时记忆网络的单元函数,cj-1为第j-1位置的词对应的隐藏表示,yj为j位置的词的嵌入向量。
4.根据权利要求1所述的系统,其特征在于,所述由第三长短时记忆网络构成的偏置编码网络,根据如下公式,获得航天领域的专业词汇序列对应的隐藏表示:
bk=LSTM(bk-1,zk)
其中,LSTM为长短时记忆网络的单元函数,bk-1为第k-1位置航天领域的专业词汇序列的字对应的隐藏表示,zk为航天领域的专业词汇序列k位置字的嵌入向量。
5.根据权利要求1所述的系统,其特征在于,所述多层感知机构成的融合网络,融合由第一长短时记忆网络构成的编码器、由第二长短时记忆网络构成的预测网络和由第三长短时记忆网络构成的偏置网络三个网络的输出结果,根据如下公式来预测文本序列的下一个词:
P(yj+1)=MLP([cj,bk,yj])
其中,MLP为多层感知机的函数。
6.根据权利要求1所述的系统,其特征在于,在识别阶段,根据Viterbi算法从如下公式中搜索出最优的文本序列,具体包括:
y*=argmax(trans(x,z,y))
其中,trans表示整个语音识别系统模型,argmax表示取概率最大值对应的那个词,x表示声学特征序列,z表示航天领域的专业词汇序列,y表示所有文本序列,y*表示最优文本序列。
7.根据权利要求6所述的系统,其特征在于,所述系统可响应于用户提供航天领域的专业词汇序列z,识别出对应的航天领域的专业词汇。
8.一种对权利要求1-7任一项所述系统进行训练的方法,其特征在于,通过以下损失函数进行训练:
其中,θ表示整个神经网络的参数,a表示包含插入填充符号的文本序列,y表示标注的文本序列,x表示声学特征序列,z表示航天领域专业词汇序列。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京仿真中心,未经北京仿真中心许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011139217.2/1.html,转载请声明来源钻瓜专利网。
- 上一篇:自动贴泡棉设备
- 下一篇:基于多天线阵列的植入式医疗电子设备的充电系统