[发明专利]一种中英文混合语音的声学识别方法及系统有效
申请号: | 201911274911.2 | 申请日: | 2019-12-12 |
公开(公告)号: | CN110930980B | 公开(公告)日: | 2022-08-05 |
发明(设计)人: | 游永彬 | 申请(专利权)人: | 思必驰科技股份有限公司 |
主分类号: | G10L15/00 | 分类号: | G10L15/00;G10L15/02;G10L15/06;G10L15/16;G10L15/26 |
代理公司: | 北京商专永信知识产权代理事务所(普通合伙) 11400 | 代理人: | 黄谦;邓婷婷 |
地址: | 215123 江苏省苏州市苏*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 中英文 混合 语音 声学 识别 方法 系统 | ||
1.一种使用中英文混合语音的声学识别模型的中英文混合语音的声学识别方法,所述中英文混合语音的声学识别模型包括:语音信息的特征提取单元、共享的深度神经网络层及独立的语音识别声学模型相关的深度神经网络层;
所述语音信息的特征提取单元,其配置为从当前采集语音信息中提取当前语音特征;
所述共享的深度神经网络层,其配置为卷积神经网络CNN串联长短时记忆神经网络LSTM的拓扑结构;所述共享的深度神经网络层接收从所述语音信息的特征提取单元发送的所述当前语音特征,以及所述当前采集语音信息;对所述当前采集语音信息识别,获取第一识别解码且获取词图;
所述独立的语音识别声学模型相关的深度神经网络层,其配置为前馈深度神经网络DNN;接收所述共享的深度神经网络层获取的所述第一识别解码且获取词图,在所述词图上对所述共享的深度神经网络层重打分;在重打分的词图上检索获取语音识别结果;
所述共享的深度神经网络层及所述独立的语音识别声学模型相关的深度神经网络层,通过中文音素及英文音素的并集作为建模单元,使用CTC作为模型训练准则;
所述声学识别模型,还包括,语种分类单元;所述语种分类单元,其配置为通过门函数辨识中文语种及英文语种,所述语种分类单元接收所述共享的深度神经网络层的第一识别解码且获取词图;所述语种分类单元的输出连接所述独立的语音识别声学模型相关的深度神经网络层;
所述中英文混合语音的声学识别方法包括:
步骤S101,通过所述共享的深度神经网络层和声学模型资源对当前采集语音识别,获取第一识别解码且获取词图;
步骤S102,通过所述独立的语音识别声学模型相关的深度神经网络层在所述词图上对所述共享的深度神经网络层重打分;
步骤S103、在重打分的词图上检索获取语音识别结果。
2.根据权利要求1所述的中英文混合语音的声学识别方法,其中,所述步骤S101中包括,通过所述共享的深度神经网络层和声学模型资源,通过解码器搜索算法获取第一识别解码且获取词图。
3.根据权利要求2所述的中英文混合语音的声学识别方法,所述独立的语音识别声学模型相关的深度神经网络层为基于神经网络的语言模型。
4.根据权利要求3所述的中英文混合语音的声学识别方法,所述共享的深度神经网络层为具有中文音素及英文音素的语言模型;所述声学模型资源包括中文音素及英文音素资源。
5.根据权利要求3所述的中英文混合语音的声学识别方法,所述步骤S101中还包括,通过语音采集设备采集所述当前采集语音。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于思必驰科技股份有限公司,未经思必驰科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911274911.2/1.html,转载请声明来源钻瓜专利网。