[发明专利]一种语料收集方法、装置及系统有效
申请号: | 201910110199.6 | 申请日: | 2019-02-11 |
公开(公告)号: | CN109801628B | 公开(公告)日: | 2020-02-21 |
发明(设计)人: | 聂颖;王竹欣;郑权 | 申请(专利权)人: | 龙马智芯(珠海横琴)科技有限公司 |
主分类号: | G10L15/22 | 分类号: | G10L15/22;G10L15/00;G10L15/26;H04L29/08 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 519031 广东省珠海市横琴新区环岛*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 语料 收集 方法 装置 系统 | ||
本发明提供了一种语料收集方法、装置及系统。通过三级递进式比较判断,即首先比较初始语料转换后的文字和标准语料文本的长度是否一致,进而识别出无效语料;当长度一致时,进一步比较初始语料转换后的文字和标准语料文本的文字是否相同,进而识别出有效语料;当存在不相同的文字时,进一步比较初始语料转换后的文字和标准语料文本的拼音并根据初始语料转换后的文字的拼音相对于标准语料文本的拼音的编辑距离计算出初始语料的误差率,通过初始语料的误差率与阈值的大小关系,进而识别出有效语料和无效语料;解决了现有技术中收集语料的准确率和收集成本无法兼顾的问题,降低了语料收集的成本,同时提高了所收集语料的准确率。
技术领域
本发明涉及信息处理技术领域,具体而言,涉及一种语料收集方法、装置及系统。
背景技术
随着语音交互技术愈发的成熟,语料作为语音交互的能源,语料的收集变得极其的重要。
现有的语料收集方案基于两种形式,一种是在录音棚中由专业训练过的录音人员利用录音设备(麦克风、电脑等)录音,对于录制好的语音,再由专门的数据标注人员对数据进行整理,其中包括对录制好的语音的准确性进行判断(一般都是通过抽取样本去听)、对音频进行分割、然后对分割后的音频进行归类,从而完成语音语料的采集;另一种是通过互联网小程序对任何水平的录音人员的语音进行收集。第一种形式收集的语料准确率高,但是耗时耗力,且收集的语料具有局限性,即录音人员的丰富性不足;第二种形式收集的语料有足够的丰富性,但准确率不足。
专利号CN103198828A公开了一种语音语料库的构建系统和方法,其语料的来源为用户通过语音录入客户端录入,将语音与其对应的话术(按照话术录制的语音)上传至服务器,通过语音识别对录制的语音进行识别,若正确则标注正确,否则标注错误。该方法完全依赖于语音识别的准确率,但现实生活中一个读音可能会对应不同的字,所以基于此收集的语料准确率较低,并且在线调听并标注仍然进一步增加了工作量和收集成本,并没有解决现有技术中存在的收集语料的准确率和收集成本无法兼顾的问题。
发明内容
为了解决现有技术中存在的收集语料的准确率和收集成本无法兼顾的问题,本发明提供了一种语料收集方法、装置及系统,通过三级递进式比较判断,即首先比较初始语料转换后的文字和标准语料文本的长度是否一致,进而识别出无效语料;当长度一致时,进一步比较初始语料转换后的文字和标准语料文本的文字是否相同,进而识别出有效语料;当存在不相同的文字时,进一步比较初始语料转换后的文字和标准语料文本的拼音并根据初始语料转换后的文字的拼音相对于标准语料文本的拼音的编辑距离计算出初始语料的误差率,通过初始语料的误差率与阈值的大小关系,进而识别出有效语料和无效语料;降低了语料搜集的成本,同时提高了收集语料的准确率。
在第一方面,本发明提供了一种语料收集方法,包括:
在服务器中预置标准语料文本;
声音采集装置检测任务启动指令,当检测到任务启动指令后开始采集基于所述标准语料文本录入的语音作为初始语料;
利用语音识别技术把所述初始语料转换为初始文字,比较所述初始文字与所述标准语料文本的长度,当所述初始文字与所述标准语料文本的长度不一致时,则判断所述初始语料为无效语料,把所述初始语料存储至服务器中的无效语料库;当所述初始文字与所述标准语料文本的长度一致时,则进一步进行以下步骤,
逐字比较所述初始文字与所述标准语料文本,当所述初始文字与所述标准语料文本的文字全部相同时,则判断所述初始语料为有效语料,把所述初始语料存储至服务器中的有效语料库;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于龙马智芯(珠海横琴)科技有限公司,未经龙马智芯(珠海横琴)科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910110199.6/2.html,转载请声明来源钻瓜专利网。