[发明专利]一种在线标注方法及系统在审

申请号：	202010548311.7	申请日：	2020-06-16
公开（公告）号：	CN111785272A	公开（公告）日：	2020-10-16
发明（设计）人：	朱宇	申请（专利权）人：	杭州云嘉云计算有限公司
主分类号：	G10L15/26	分类号：	G10L15/26;G10L25/51
代理公司：	杭州杭诚专利事务所有限公司 33109	代理人：	尉伟敏
地址：	311100 浙江省杭州市余***	国省代码：	浙江;33
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种在线标注方法系统
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明提出一种在线标注方法，包括以下步骤：利用ASR引擎识别待标注音频得到原始音频日志和短音频；对原始音频日志和短音频进行解析，获取识别结果和音频相关信息；对识别结果进行在线标注，得到标注结果；根据识别结果和标注结果进行对比计算识别率；利用音频相关信息对ASR引擎识别效果进行统计。本发明对ASR引擎识别的原始音频的日志和短音频进行解析，获得识别结果，在根据识别结果进行在线标注，提高标注效率和准确度。

技术领域

本发明涉及语音识别技术领域，尤其是涉及一种在线标注方法及系统。

背景技术

在语音识别领域，必须事先获得大量应用场景下原始语音的标注数据和音频，才能投入到声学模型训练和语言模型的训练中，从而获得较高的语音识别准确率。

然而，原始语音只包含音频，不包含标注数据，需要靠人工方式进行语音标注获得标注数据。但是传统的语音标注系统是逐字进行标注，效率低且人力成本高，并且传统的标注系统是基于单机软件，无法进行统一的数据管理。

发明内容

针对传统的语音标注系统是逐字进行标注，效率低且人力成本高的问题，本发明提出了一种在线标注方法及系统，对ASR引擎识别的原始音频的日志和短音频进行解析，获得识别结果，在根据识别结果进行在线标注，提高标注效率和准确度。

为实现上述目的，本发明提供以下的技术方案：

一种在线标注方法，包括以下步骤：

S1，利用ASR引擎识别待标注音频得到原始音频日志和短音频；

S2，对原始音频日志和短音频进行解析，获取识别结果和音频相关信息；

S3，对识别结果进行在线标注，得到标注结果；