[发明专利]一种语音识别方法及装置在审

申请号：	202110792834.0	申请日：	2021-07-14
公开（公告）号：	CN113470628A	公开（公告）日：	2021-10-01
发明（设计）人：	李程帅;周全;孙进伟	申请（专利权）人：	青岛信芯微电子科技股份有限公司
主分类号：	G10L15/06	分类号：	G10L15/06;G10L15/22;G10L15/20
代理公司：	北京同达信恒知识产权代理有限公司 11291	代理人：	任嘉文
地址：	266100 山***	国省代码：	山东;37
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种语音识别方法装置
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本申请公开了一种语音识别方法及装置，用以增强语音识别模型的鲁棒性。本申请提供的一种语音识别方法，包括：对预先确定的房间脉冲响应RIR数据进行掩蔽；将掩蔽后的RIR数据与原始语音数据进行卷积，得到新的语音数据；利用所述新的语音数据训练语音识别模型。

技术领域

本申请涉及信息技术领域，尤其涉及一种语音识别方法及装置。

背景技术

目前的语音识别技术主要依赖于基于深度学习的算法，为了得到高识别率的语音识别模型，需要大量的与真实场景相匹配的语音数据，其中房间混响以及说话人与麦克风的距离角度等是影响语音识别模型性能的重要因素之一，然而有遮挡、异形房间的混响很难用算法仿真，例如说话人在餐厅，而麦克风在客厅，或者说话人背对麦克风，说话人与麦克风之间存在遮挡等情况下识别率会明显降低，而混响数据又很难大量的采集，无法做到对这些情况海量的数据覆盖。

发明内容

本申请实施例提供了一种语音识别方法及装置，用以增强语音识别模型的鲁棒性。

本申请实施例提供的一种语音识别方法包括：

对预先确定的房间脉冲响应RIR数据进行掩蔽；

将掩蔽后的RIR数据与原始语音数据进行卷积，得到新的语音数据；

利用所述新的语音数据训练语音识别模型。

通过该方法，对预先确定的房间脉冲响应RIR数据进行掩蔽；将掩蔽后的RIR数据与原始语音数据进行卷积，得到新的语音数据；利用所述新的语音数据训练语音识别模型，从而增强了语音识别模型的鲁棒性，提升了语音识别模型在房间有遮挡及多角度等情况下的语音识别率，简单、高效、适用性强。

可选地，对预先确定的房间脉冲响应RIR数据进行掩蔽，具体包括：

确定对所述RIR数据进行掩蔽的时间段；

将所述时间段的RIR数据，替换为预设值。

可选地，所述预设值为零，或者为所述RIR数据中的一部分RIR数据的平均值，或者为随机数。

可选地，所述时间段的RIR数据，包括所述RIR数据中的一段时间或多段时间的RIR数据。