[发明专利]统一中英混合文本生成和语音识别的端到端系统有效
申请号: | 202110777611.7 | 申请日: | 2021-07-09 |
公开(公告)号: | CN113284485B | 公开(公告)日: | 2021-11-09 |
发明(设计)人: | 陶建华;张帅;易江燕 | 申请(专利权)人: | 中国科学院自动化研究所 |
主分类号: | G10L15/06 | 分类号: | G10L15/06;G10L15/02;G10L15/183;G10L15/26 |
代理公司: | 北京华夏泰和知识产权代理有限公司 11662 | 代理人: | 孙剑锋;李永叶 |
地址: | 100190 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 统一 混合 文本 生成 语音 识别 端到端 系统 | ||
1.一种统一中英混合文本生成和语音识别的端到端系统,其特征在于,包括:
声学编码器、音素编码器、判别器和解码器;所述音素编码器和所述判别器构成生成对抗网络,所述音素编码器作为所述生成对抗网络的生成器,所述判别器为所述生成对抗网络的判别器,所述声学编码器作为所述生成对抗网络的真实数据输入,以这种对抗生成网络来促使音素编码器输出的音素编码表示的分布接近声学编码器输出的声学编码表示,所述解码器将所述声学编码表示和所述音素编码表示融合,得到解码表示,再将所述解码表示输入到softmax函数得到概率最大的输出目标;
所述系统还包括,语音特征提取模块和声学特征序列卷积降采样模块;
所述语音特征提取模块:语音波形分帧处理,将连续的语音波形点分割成固定长度的短时音频帧,并对所述短时音频帧提取fbank声学特征,将所述声学特征的序列输出到所述声学特征序列卷积降采样模块;
所述声学特征序列卷积降采样模块对声学特征序列进行卷积降采样处理,并进一步编码,具体方法包括:
使用多个2维卷积核对所述声学特征序列进行卷积操作,通过设置卷积操作的步长来控制降采样的比例,并将卷积操作后的声学特征序列输出到所述声学编码器;
所述声学编码器由多个结构相同的基于多头自注意力的模块连接而成;两个基于多头自注意力的模块之间由残差连接;
所述基于多头自注意力的模块包括:两个子部分,第一子部分是多头自注意力层,后面接第二子部分,为全连接映射层,每个子部分进行层归一化操作;所述多头自注意力层和全连接映射层中间进行残差连接;
所述系统还包括,标注目标序列的高维表示模块,将所述语音波形对应的标注目标文本进行词嵌入表示,将所述词嵌入表示输入所述基于多头自注意力的模块,得到目标序列的高维表示,该高维表示作为查询向量;所述基于多头自注意力的模块与所述声学编码器的基于多头自注意力的模块结构相同;
具体的方法为:
使用词嵌入矩阵将所述标注目标文本表示为目标文本连续特征向量;
对目标文本连续特征向量增加位置编码信息,建模特征序列的时间先后顺序信息,得到目标文本位置编码序列;
将所述目标文本位置编码序列输入所述基于多头自注意力的模块得到目标序列的高维表示;
所述解码器将所述声学编码表示和所述音素编码表示融合,得到解码表示的具体方法为:
将声学编码器输出的声学编码表示和音素编码器输出的音素编码表示输入到解码器中,作为待查询的声学键和声学值集合,音素键和音素值集合;
应用所述查询向量对声学键集合和音素键集合进行逐元素计算余弦距离,根据距离的大小得到声学的注意力分数和音素的注意力分数;
使用所述声学的注意力分数对声学值集合进行加权平均,得到声学上下文向量表示;
使用所述音素的注意力分数对音素值集合进行加权平均,得到音素上下文向量表示;
将声学上下文向量表示和音素上下文向量表示通过全连接映射层进行维度转换,得到最终的解码表示。
2.根据权利要求1所述的统一中英混合文本生成和语音识别的端到端系统,其特征在于,所述将卷积操作后的声学特征序列输出到所述声学编码器之前还包括:对卷积操作后的声学特征序列增加位置编码信息,建模卷积操作后的声学特征序列的时间先后顺序信息;
所述系统还包括,音素嵌入模块,将音素序列使用词嵌入矩阵转换为连续的音素特征向量表示,并将音素特征向量表示输出到所述音素编码器;
所述将音素特征向量表示输出到所述音素编码器之前还包括:对连续的音素特征向量增加位置编码信息,建模连续的音素特征向量的时间先后顺序信息。
3.根据权利要求1所述的统一中英混合文本生成和语音识别的端到端系统,其特征在于,所述音素编码器由多个结构相同的基于多头自注意力的模块连接而成;两个基于多头自注意力的模块之间由残差连接;
所述基于多头自注意力的模块包括:两个子部分,第一子部分是多头自注意力层,后面接第二子部分,为全连接映射层,每个子部分进行层归一化操作;所述多头自注意力层和全连接映射层中间进行残差连接。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院自动化研究所,未经中国科学院自动化研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110777611.7/1.html,转载请声明来源钻瓜专利网。
- 上一篇:氟非尼酮在制备治疗急性肺损伤药物中的应用
- 下一篇:检查系统及方法