[发明专利]基于端到端模型的混合语音识别系统及方法在审
申请号: | 202111041405.6 | 申请日: | 2021-09-07 |
公开(公告)号: | CN113763939A | 公开(公告)日: | 2021-12-07 |
发明(设计)人: | 司玉景;李全忠;何国涛;蒲瑶 | 申请(专利权)人: | 普强时代(珠海横琴)信息技术有限公司 |
主分类号: | G10L15/183 | 分类号: | G10L15/183;G10L15/06;G10L15/02 |
代理公司: | 北京科亿知识产权代理事务所(普通合伙) 11350 | 代理人: | 汤东凤 |
地址: | 519000 广东省珠海市横琴新*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 端到端 模型 混合 语音 识别 系统 方法 | ||
1.一种基于端到端模型的混合语音识别系统,其特征在于,包括:特征提取模块、语言模型、基于端到端模型的声学模型、解码器、词图重估模块以及输出模块;
所述特征提取模块用于提取音频数据中的声学特征;
所述语言模型用于获取所述声学特征中对应的候选文本的语言模型分数;
所述基于端到端模型的声学模型用于获取所述声学特征的每个建模单元的后验概率;其中,所述建模单元包括词、单字、带调或无调拼音、和音素;
所述解码器用于对所述语言模型分数及对应建模单元的后验概率进行加权处理,然后根据加权处理后的得分进行搜索排序;
所述词图重估模块用于对排序后的识别结果进行重估并重新排序;
所述输出模块用于输出重新排序后的识别结果。
2.根据权利要求1所述的系统,其特征在于,构建基于端到端模型的声学模型的方法,包括:
在预先标注的音频数据中提取声学特征,将所述声学特征和对应的建模单元作为输入,采用连接时域分类和注意力结构的优化机制,对预构建的纯端到端模型进行训练,得到纯端到端模型的编码器;
将训练集输入到所述编码器中,解码得到所述训练集对应的词图文件和强制对齐文件,通过所述词图文件和强制对齐文件对所述编码器进行鉴别性训练,得到最终的基于端到端模型的声学模型。
3.根据权利要求1所述的系统,其特征在于,
所述解码器采用Viterbi算法。
4.根据权利要求1所述的系统,其特征在于,
预先对所述语音数据对应的建模单元进行建模,生成多个建模单元;其中,所述建模单元包括词、单字、带调或无调拼音、和音素。
5.根据权利要求1所述的系统,其特征在于,
对预先标注的音频数据通过预处理、加窗、FFT变换、梅尔滤波器处理,得到声学特征,或者直接将音频数据作为声学特征。
6.根据权利要求5所述的系统,其特征在于,对预先标注的音频数据进行预处理,包括:
对预先标注的音频数据进行降噪处理,或者幅值调整。
7.一种基于端到端模型的混合语音识别方法,其特征在于,包括:
提取音频数据中的声学特征;
获取所述声学特征对应的候选文本的语言模型分数;
获取所述声学特征的每个建模单元的后验概率;其中,所述建模单元包括词、单字、带调或无调拼音、和音素;
对所述语言模型分数及对应建模单元的后验概率进行加权处理,然后根据加权处理后的得分进行搜索排序;
对排序后的识别结果进行重估并重新排序;
输出重新排序后的识别结果。
8.根据权利要求7所述的方法,其特征在于,构建基于端到端模型的声学模型的方法,包括:
在预先标注的音频数据中提取声学特征,将所述声学特征和对应的建模单元作为输入,采用连接时域分类和注意力结构的优化机制,对预构建的纯端到端模型进行训练,得到纯端到端模型的编码器;
将训练集输入到所述编码器中,解码得到所述训练集对应的词图文件和强制对齐文件,通过所述词图文件和强制对齐文件对所述编码器进行鉴别性训练,得到最终的基于端到端模型的声学模型。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于普强时代(珠海横琴)信息技术有限公司,未经普强时代(珠海横琴)信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111041405.6/1.html,转载请声明来源钻瓜专利网。