[发明专利]音频标注的检错方法、装置、计算机设备和存储介质在审

申请号：	201910777343.1	申请日：	2019-08-22
公开（公告）号：	CN110532522A	公开（公告）日：	2019-12-03
发明（设计）人：	付嘉懿;石真	申请（专利权）人：	深圳追一科技有限公司
主分类号：	G06F17/21	分类号：	G06F17/21;G06F17/27;G06F16/332;G10L15/26
代理公司：	44224 广州华进联合专利商标代理有限公司	代理人：	黄丽霞<国际申请>=<国际公布>=<进入
地址：	518051 广东省深圳市南山区粤海街道***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	标注检错文本音频数据计算机设备存储介质语句词语终端改正输出检测申请
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本申请涉及一种音频标注的检错方法、装置、计算机设备和存储介质。所述方法包括：获取标注人员对音频数据进行标注后得到的标注文本；对所述标注文本进行检错，当通过检错确定所述标注文本中的词语出现错误和所述标注文本中的语句出现错误中的至少一种时，生成检错信息；对所述检错信息进行输出。通过本发明实施例，终端在标注人员对音频数据标注的过程中，如果检测到标注文本出现错误则生成检错信息，可以实时提醒标注人员，以便标注人员及时改正，因此提高了标注质量。

技术领域

本申请涉及文本处理技术领域，特别是涉及一种音频标注的检错方法、装置、计算机设备和存储介质。

背景技术

随着科技的发展，自动语音识别(Automatic Speech Recognition，ASR)技术逐渐应用到各个领域中。例如，在机器人客服与用户交互时，机器人客服接收用户输入的语音，采用深度学习模型将音频数据转换为文本数据，然后再对文本数据进行处理。

通常情况下，需要大量的训练样本才能训练出深度学习模型，而训练样本一般是由标注人员对音频数据进行文本标注，建立音频数据和文本数据之间的对应关系得到的。

但是，标注人员每天需要处理大量的音频数据，从事反复枯燥的标注工作容易出现标注错误的情况。即使有审核人员对标注结果进行审核，也有可能得到错误的训练样本，使得训练出的深度学习模型不够准确。

发明内容

基于此，有必要针对上述技术问题，提供一种能够提高标注质量的音频标注的检错方法、装置、计算机设备和存储介质。

第一方面，本发明实施例提供了一种音频标注的检错方法，该方法包括：

获取标注人员对音频数据进行标注后得到的标注文本；

对标注文本进行检错，当通过检错确定标注文本中的词语出现错误和标注文本中的语句出现错误中的至少一种时，生成检错信息；

对检错信息进行输出。