[发明专利]一种语音识别方法、装置、计算机设备及存储介质在审

申请号：	202210676027.7	申请日：	2022-06-15
公开（公告）号：	CN115083398A	公开（公告）日：	2022-09-20
发明（设计）人：	丁超越;李家魁;李宝祥	申请（专利权）人：	上海商汤智能科技有限公司
主分类号：	G10L15/16	分类号：	G10L15/16;G10L15/02
代理公司：	北京中知恒瑞知识产权代理事务所(普通合伙) 11889	代理人：	张媛媛
地址：	200233 上海市徐***	国省代码：	上海;31
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种语音识别方法装置计算机设备存储介质
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种语音识别方法，其特征在于，包括：

获取待识别的目标音频数据，并对所述目标音频数据进行音频特征提取，得到所述目标音频数据对应的音频提取特征；

将所述音频提取特征输入至预先训练好的目标神经网络中，得到所述目标神经网络输出的与所述目标音频数据对应的音频概率信息；其中，所述目标神经网络包含自注意力模块，所述自注意力模块用于对所述目标神经网络中各时序卷积模块的输出数据进行融合；所述音频概率信息用于表征所述目标音频数据中的各帧音频数据包含目标关键词的概率；

基于所述音频概率信息，确定所述目标音频数据对应的语音识别结果。

2.根据权利要求1所述的方法，其特征在于，在将所述音频提取特征输入至预先训练好的目标神经网络中之后，所述目标神经网络用于依次确定所述目标音频数据在各个时间窗口下对应的音频概率信息。

3.根据权利要求1所述的方法，其特征在于，所述对所述目标音频数据进行音频特征提取，得到所述目标音频数据对应的音频提取特征，包括：

对所述目标音频数据进行梅尔频率倒谱系数特征提取，确定所述目标音频数据对应的音频提取特征。

4.根据权利要求1或2所述的方法，其特征在于，各时序卷积模块包含多个膨胀卷积模块，所述多个膨胀卷积模块分别使用不同的膨胀卷积参数对输入数据进行膨胀卷积处理。

5.根据权利要求1～4任一所述的方法，其特征在于，所述方法还包括根据以下步骤，对所述目标神经网络中各时序卷积模块的输出数据进行融合：

确定各时序卷积模块分别对应的初始权重系数；

基于各时序卷积模块分别对应的初始权重系数，对所述目标神经网络中各时序卷积模块的输出数据进行加权求和处理。

6.根据权利要求5所述的方法，其特征在于，所述基于各时序卷积模块分别对应的初始权重系数，对所述目标神经网络中各时序卷积模块的输出数据进行融合，包括：

对各时序卷积模块分别对应的初始权重系数进行归一化处理，确定各时序卷积模块分别对应的目标权重系数；

基于各时序卷积模块分别对应的目标权重系数，对所述目标神经网络中各时序卷积模块的输出数据进行加权求和处理。

7.根据权利要求2～6任一所述的方法，其特征在于，将所述音频提取特征输入至预先训练好的目标神经网络中之后，所述目标神经网络还用于确定各个时间窗口内的目标音频数据中所包含的关键字；