[发明专利]音频标注的检错方法、装置、计算机设备和存储介质在审
申请号: | 201910777343.1 | 申请日: | 2019-08-22 |
公开(公告)号: | CN110532522A | 公开(公告)日: | 2019-12-03 |
发明(设计)人: | 付嘉懿;石真 | 申请(专利权)人: | 深圳追一科技有限公司 |
主分类号: | G06F17/21 | 分类号: | G06F17/21;G06F17/27;G06F16/332;G10L15/26 |
代理公司: | 44224 广州华进联合专利商标代理有限公司 | 代理人: | 黄丽霞<国际申请>=<国际公布>=<进入 |
地址: | 518051 广东省深圳市南山区粤海街道*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 标注 检错 文本 音频数据 计算机设备 存储介质 语句 词语 终端 改正 输出 检测 申请 | ||
1.一种音频标注的检错方法,其特征在于,所述方法包括:
获取标注人员对音频数据进行标注后得到的标注文本;
对所述标注文本进行检错,当通过检错确定所述标注文本中的词语出现错误和所述标注文本中的语句出现错误中的至少一种时,生成检错信息;
对所述检错信息进行输出。
2.根据权利要求1所述的方法,其特征在于,所述当通过检错确定所述标注文本中的词语出现错误和所述标注文本中的语句出现错误中的至少一种时,生成检错信息,包括:
对所述标注文本进行分词,得到所述标注文本包括的多个词语;
在预先建立的正确词表中分别查找所述标注文本包括的各个词语;
当通过查找确定所述标注文本包括的多个词语中存在错误词语时,基于所述错误词语生成所述检错信息;所述错误词语为未记录于所述正确词表中的词语。
3.根据权利要求2所述的方法,其特征在于,所述基于所述错误词语生成所述检错信息,包括:
在所述正确词表中查找多个参考词语;所述参考词语与所述错误词语的编辑距离在预设编辑距离内,所述编辑距离包括拼音编辑距离以及词汇编辑距离中的至少一种;
生成包含多个所述参考词语的检错信息。
4.根据权利要求3所述的方法,其特征在于,所述当通过检错确定所述标注文本中的词语出现错误和所述标注文本中的语句出现错误中的至少一种时,生成检错信息,包括:
将由所述标注文本包括的多个词语组成的第一词语序列输入到预先训练的神经网络检错模型中,得到所述神经网络检错模型输出的所述第一词语序列对应的概率信息;所述概率信息用于指示词语序列正确的概率;
若所述第一词语序列对应的概率信息低于预设概率值,则生成所述检错信息。
5.根据权利要求4所述的方法,其特征在于,所述若所述第一词语序列对应的概率信息低于预设概率值,则生成所述检错信息,包括:
在所述第一词语序列对应的概率信息低于所述预设概率值时,分别采用多个所述参考词语替换所述错误词语,得到多个第二词语序列;
分别将多个所述第二词语序列输入到所述神经网络检错模型中,得到各所述第二词语序列对应的概率信息;
根据所述参考词语与所述第二词语序列的对应关系和各所述第二词语序列对应的概率信息,生成包含多个所述参考词语的检错信息。
6.根据权利要求4所述的方法,其特征在于,在所述得到所述神经网络检错模型输出的所述第一词语序列对应的概率信息之后,所述方法还包括:
若所述第一词语序列对应的概率信息不低于所述预设概率值,则停止输出所述检错信息,并将所述错误词语添加到所述正确词表中。
7.根据权利要求3或5所述的方法,其特征在于,所述当通过检错确定所述标注文本中的词语出现错误和所述标注文本中的语句出现错误中的至少一种时,生成检错信息,包括:
通过搜索引擎搜索由所述标注文本包括的多个词语组成的第一词语序列,得到与所述第一词语序列匹配的搜索结果;
若所述搜索结果的数量小于预设数量,则生成所述检错信息。
8.根据权利要求7所述的方法,其特征在于,所述若所述搜索结果的数量小于预设数量,则生成所述检错信息,包括:
在所述搜索结果的数量小于所述预设数量时,从所述第一词语序列中删除所述错误词语,得到第三词语序列;
通过所述搜索引擎搜索所述第三词语序列,得到多个与所述第三词语序列同时出现的共现词语;
生成包含多个所述共现词语的检错信息。
9.根据权利要求7所述的方法,其特征在于,在所述得到与所述第一词语序列匹配的搜索结果之后,所述方法还包括:
若所述搜索结果的数量不小于所述预设数量,则停止输出所述检错信息,并将所述错误词语添加到所述正确词表中。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳追一科技有限公司,未经深圳追一科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910777343.1/1.html,转载请声明来源钻瓜专利网。