[发明专利]音频标注的检错方法、装置、计算机设备和存储介质在审
申请号: | 201910777343.1 | 申请日: | 2019-08-22 |
公开(公告)号: | CN110532522A | 公开(公告)日: | 2019-12-03 |
发明(设计)人: | 付嘉懿;石真 | 申请(专利权)人: | 深圳追一科技有限公司 |
主分类号: | G06F17/21 | 分类号: | G06F17/21;G06F17/27;G06F16/332;G10L15/26 |
代理公司: | 44224 广州华进联合专利商标代理有限公司 | 代理人: | 黄丽霞<国际申请>=<国际公布>=<进入 |
地址: | 518051 广东省深圳市南山区粤海街道*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 标注 检错 文本 音频数据 计算机设备 存储介质 语句 词语 终端 改正 输出 检测 申请 | ||
本申请涉及一种音频标注的检错方法、装置、计算机设备和存储介质。所述方法包括:获取标注人员对音频数据进行标注后得到的标注文本;对所述标注文本进行检错,当通过检错确定所述标注文本中的词语出现错误和所述标注文本中的语句出现错误中的至少一种时,生成检错信息;对所述检错信息进行输出。通过本发明实施例,终端在标注人员对音频数据标注的过程中,如果检测到标注文本出现错误则生成检错信息,可以实时提醒标注人员,以便标注人员及时改正,因此提高了标注质量。
技术领域
本申请涉及文本处理技术领域,特别是涉及一种音频标注的检错方法、装置、计算机设备和存储介质。
背景技术
随着科技的发展,自动语音识别(Automatic Speech Recognition,ASR)技术逐渐应用到各个领域中。例如,在机器人客服与用户交互时,机器人客服接收用户输入的语音,采用深度学习模型将音频数据转换为文本数据,然后再对文本数据进行处理。
通常情况下,需要大量的训练样本才能训练出深度学习模型,而训练样本一般是由标注人员对音频数据进行文本标注,建立音频数据和文本数据之间的对应关系得到的。
但是,标注人员每天需要处理大量的音频数据,从事反复枯燥的标注工作容易出现标注错误的情况。即使有审核人员对标注结果进行审核,也有可能得到错误的训练样本,使得训练出的深度学习模型不够准确。
发明内容
基于此,有必要针对上述技术问题,提供一种能够提高标注质量的音频标注的检错方法、装置、计算机设备和存储介质。
第一方面,本发明实施例提供了一种音频标注的检错方法,该方法包括:
获取标注人员对音频数据进行标注后得到的标注文本;
对标注文本进行检错,当通过检错确定标注文本中的词语出现错误和标注文本中的语句出现错误中的至少一种时,生成检错信息;
对检错信息进行输出。
在其中一个实施例中,上述当通过检错确定标注文本中的词语出现错误和标注文本中的语句出现错误中的至少一种时,生成检错信息,包括:
对标注文本进行分词,得到标注文本包括的多个词语;
在预先建立的正确词表中分别查找标注文本包括的各个词语;
当通过查找确定标注文本包括的多个词语中存在错误词语时,基于错误词语生成检错信息;错误词语为未记录于正确词表中的词语。
在其中一个实施例中,上述基于错误词语生成检错信息,包括:
在正确词表中查找多个参考词语;参考词语与错误词语的编辑距离在预设编辑距离内,编辑距离包括拼音编辑距离以及词汇编辑距离中的至少一种;
生成包含多个参考词语的检错信息。
在其中一个实施例中,上述当通过检错确定标注文本中的词语出现错误和标注文本中的语句出现错误中的至少一种时,生成检错信息,包括:
将由标注文本包括的多个词语组成的第一词语序列输入到预先训练的神经网络检错模型中,得到神经网络检错模型输出的第一词语序列对应的概率信息;概率信息用于指示词语序列正确的概率;
若第一词语序列对应的概率信息低于预设概率值,则生成检错信息。
在其中一个实施例中,上述若第一词语序列对应的概率信息低于预设概率值,则生成检错信息,包括:
在第一词语序列对应的概率信息低于预设概率值时,分别采用多个参考词语替换错误词语,得到多个第二词语序列;
分别将多个第二词语序列输入到神经网络检错模型中,得到各第二词语序列对应的概率信息;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳追一科技有限公司,未经深圳追一科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910777343.1/2.html,转载请声明来源钻瓜专利网。