[发明专利]语音识别、网络模型的训练方法、装置、设备和存储介质在审

申请号：	202111660465.6	申请日：	2021-12-30
公开（公告）号：	CN114283831A	公开（公告）日：	2022-04-05
发明（设计）人：	黄鑫;许丽	申请（专利权）人：	科大讯飞股份有限公司
主分类号：	G10L21/0208	分类号：	G10L21/0208;G10L15/26;G10L15/065;G10L15/06;G10L25/21;G10L25/06
代理公司：	北京布瑞知识产权代理有限公司 11505	代理人：	王海臣
地址：	230088 安徽***	国省代码：	安徽;34
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	语音识别网络模型训练方法装置设备存储介质
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本申请提供了一种语音识别、网络模型的训练方法、装置、设备和存储介质，解决了现有技术中语音识别系统识别效果较差的问题。基于初始说话人波束和多路语音信号确定第一目标说话人波束，初始说话人波束基于多路语音信号的波束成形过程得到，第一目标说话人波束指示多路语音信号各自在初始说话人波束所在方向上的声音信息；基于第一目标说话人波束和多路语音信号确定噪声波束，噪声波束指示多路语音信号中除了第一目标说话人波束之外的声音信息；基于噪声波束和唤醒波束对第一目标说话人波束进行滤波，得到第二目标说话人波束，唤醒波束指示包含唤醒词的波束；对第二目标说话人波束进行语音识别，得到识别文本。

技术领域

本申请涉及语音识别技术领域，具体涉及一种语音识别方法和装置、语音识别网络模型的训练方法和装置、计算机设备，以及存储介质。

背景技术

语音识别是通过机器学习方法让机器能够自动的将语音转换成对应的文字，从而赋予了机器类似人的听觉的功能，是人工智能的重要组成部分。随着语音输入使用场景的日益复杂，例如卖场等高噪声场景，对现有语音识别系统的要求越来越高。现有的语音识别系统在远场多点噪声场景下，识别效果较差。

发明内容

有鉴于此，本申请实施例提供了一种语音识别方法和装置、语音识别网络模型的训练方法和装置、计算机设备，以及存储介质，以解决现有技术中语音识别系统识别效果较差的问题。

本申请第一方面提供了一种语音识别方法，包括：基于初始说话人波束和多路语音信号确定第一目标说话人波束，初始说话人波束基于多路语音信号的波束成形过程得到，第一目标说话人波束指示多路语音信号各自在初始说话人波束所在方向上的声音信息；基于第一目标说话人波束和多路语音信号确定噪声波束，噪声波束指示多路语音信号中除了第一目标说话人波束之外的声音信息；基于噪声波束和唤醒波束对第一目标说话人波束进行滤波，得到第二目标说话人波束，唤醒波束指示包含唤醒词的波束；对第二目标说话人波束进行语音识别，得到识别文本。

在一个实施例中，基于初始说话人波束和多路语音信号确定第一目标说话人波束包括：基于多路语音信号确定多个固定波束，多个固定波束和多个预设方向一一对应；基于多个固定波束确定多个自适应波束，多个自适应波束和多个固定波束一一对应，自适应波束包括多个固定波束在自适应波束所在预设方向上的语音信息；过滤掉多个固定波束和多个自适应波束中初始说话人波束所在方向之外的语音信息，得到第一目标说话人波束。在一个实施例中，基于多个固定波束确定多个自适应波束包括：针对每个固定波束，确定固定波束和其余固定波束的第一方向相关系数向量；确定第一方向相关系数向量和固定波束的乘积为自适应波束。

在一个实施例中，过滤掉多个固定波束和多个自适应波束中初始说话人波束所在方向之外的语音信息，得到第一目标说话人波束包括：分别确定多个固定波束和多个自适应波束各自与初始说话人波束的第二方向相关系数向量；确定第二方向相关系数向量和初始说话人波束的乘积为第一目标说话人波束。

在一个实施例中，基于第一目标说话人波束对多路语音信号进行过滤，得到噪声波束包括：对第一目标说话人波束和多路语音信号进行声学特征提取，分别得到第一特征信息和第二特征信息；确定第二特征信息中和第一特征信息不匹配的第三特征信息；确定第三特征信息对应的声音信号为噪声波束。

在一个实施例中，基于噪声波束和唤醒波束对第一目标说话人波束进行过滤，得到第二目标说话人波束包括：对第一目标说话人波束、噪声波束和唤醒波束进行声学特征提取，分别得到第四特征信息、第五特征信息和第六特征信息；确定第四特征信息中与第五特征信息匹配的第七特征信息；确定第四特征信息中除了第七特征信息之外的特征信息中与第六特征信息匹配的第八特征信息；确定第八特征信息对应的声音信号为第二目标说话人波束。

在一个实施例中，对第一目标说话人波束、噪声波束和唤醒波束进行声学特征提取包括：对第一目标说话人波束、噪声波束和唤醒波束进行能量谱声学特征提取。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于科大讯飞股份有限公司，未经科大讯飞股份有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202111660465.6/2.html，转载请声明来源钻瓜专利网。

上一篇：存储节点故障处理方法、装置、设备及存储介质
下一篇：七彩金葱粉珠片膜的生产方法

同类专利

专利分类

G 物理

G10 乐器；声学
G10L 语音分析或合成；语音识别；音频分析或处理
G10L21-00 为了改变语音信号的质量或其可识度而处理语音信号，以产生另一种可听的或非可听的信号，例如视觉信号或触觉信号
G10L21-02 .语音增强，例如降低噪声或消除回声
G10L21-04 .时间压缩或扩展
G10L21-06 .将语音转换成非可听表达形式，例如语音可视化、触觉辅助的语音处理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]语音识别、网络模型的训练方法、装置、设备和存储介质在审

专利文献下载