[发明专利]语音识别方法、设备、驾驶设备和介质在审
申请号: | 202310569593.2 | 申请日: | 2023-05-17 |
公开(公告)号: | CN116597816A | 公开(公告)日: | 2023-08-15 |
发明(设计)人: | 谢旭康 | 申请(专利权)人: | 蔚来汽车科技(安徽)有限公司 |
主分类号: | G10L15/02 | 分类号: | G10L15/02;G10L15/06;G06N3/0455;G06N3/08;G06N3/084 |
代理公司: | 北京瀚仁知识产权代理事务所(普通合伙) 11482 | 代理人: | 王国赛 |
地址: | 230601 安徽省合肥市经济*** | 国省代码: | 安徽;34 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 语音 识别 方法 设备 驾驶 介质 | ||
本发明提供了一种语音识别方法、设备、驾驶设备和介质,包括对接收的当前语音数据进行音频特征提取,得到第一音频特征信息;利用基于课程学习方法训练的声学模型构造的语音解码器对所述第一音频特征信息进行解码,得到所述当前语音数据对应的识别结果,使得训练声学模型的收敛速度提高,得到的声学模型的泛化能力提高,从而提高了语音识别效率,语音识别准确率。
技术领域
本发明涉及语音识别技术领域,具体提供一种语音识别方法、设备、驾驶设备和介质。
背景技术
语音作为人与人之间相互沟通交流最为方便的手段,近二十年来,智能语音技术取得了重大进步,智能语音识别应用到生活的方方面面,如手机助手、智慧家居、智能车载等,机器一系列的动作执行都可以由人类的语音作为发起点,机器获取语音信号,通过语音识别技术将其转换为文字表征,然后基于得到的识别结果去进行一系列下游操作,例如语意理解,对话生成等,最后进行相应动作执行。
目前,主流的语音识别方法主要有以下几种方案,但是,每种方案也各有不足。
一、基于连接性时序分类(CoNectionist Temporal Classification,CTC)的识别方法,该方法虽然解码速度非常快,但基于强的独立性假设,忽略了语音的上下文关系,使得语音识别准确率较低。
二、基于注意力的编解码器结构(Attention Based Encoder-Decoder,AED)虽然联合了语义建模,但降低了解码速度,同时在复杂环境会出现注意力崩溃现象,导致识别效果急剧下降,使得语音识别效率较低。。
三、基于循环神经网络的转化器模型(Recurrent Neural Network Transducer,RNNT)天然支持流式识别,但训练收敛比较困难且不支持并行化训练,使得语音识别效率较低。
因此,如何提高语音识别的效率以及准确率是本领域技术人员亟待解决的技术问题。
发明内容
为了克服上述缺陷,提出了本发明,以提供解决或至少部分地解决语音识别的效率以及准确率低的技术问题的语音识别方法、设备、驾驶设备和介质。
在第一方面,本发明提供一种语音识别方法,该语音识别方法包括:
对接收的当前语音数据进行音频特征提取,得到第一音频特征信息;
利用预先构造的语音解码器对所述第一音频特征信息进行解码,得到所述当前语音数据对应的识别结果;
其中,所述语音解码器至少基于利用课程学习训练的声学模型构造。
在第二方面,本发明提供一种语音识别设备,该语音识别设备包括处理器和存储装置,所述存储装置适于存储多条程序代码,所述程序代码适于由所述处理器加载并运行以执行上述任一项所述的语音识别方法。
在第三方面,提供一种驾驶设备,该驾驶设备包括如上所述的语音识别设备。
在第四方面,提供一种计算机可读存储介质,该计算机可读存储介质存储有多条程序代码,其特征在于,所述程序代码适于由处理器加载并运行以执行上述任一项所述的语音识别方法。
方案1.一种语音识别方法,其特征在于,包括:
对接收的当前语音数据进行音频特征提取,得到第一音频特征信息;
利用预先构造的语音解码器对所述第一音频特征信息进行解码,得到所述当前语音数据对应的识别结果;
其中,所述语音解码器至少基于利用课程学习训练的声学模型构造。
方案2.根据方案1所述的语音识别方法,其特征在于,利用课程学习训练声学模型的步骤包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于蔚来汽车科技(安徽)有限公司,未经蔚来汽车科技(安徽)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202310569593.2/2.html,转载请声明来源钻瓜专利网。