[发明专利]一种语料收集方法、装置及系统有效
申请号: | 201910110199.6 | 申请日: | 2019-02-11 |
公开(公告)号: | CN109801628B | 公开(公告)日: | 2020-02-21 |
发明(设计)人: | 聂颖;王竹欣;郑权 | 申请(专利权)人: | 龙马智芯(珠海横琴)科技有限公司 |
主分类号: | G10L15/22 | 分类号: | G10L15/22;G10L15/00;G10L15/26;H04L29/08 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 519031 广东省珠海市横琴新区环岛*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明提供了一种语料收集方法、装置及系统。通过三级递进式比较判断,即首先比较初始语料转换后的文字和标准语料文本的长度是否一致,进而识别出无效语料;当长度一致时,进一步比较初始语料转换后的文字和标准语料文本的文字是否相同,进而识别出有效语料;当存在不相同的文字时,进一步比较初始语料转换后的文字和标准语料文本的拼音并根据初始语料转换后的文字的拼音相对于标准语料文本的拼音的编辑距离计算出初始语料的误差率,通过初始语料的误差率与阈值的大小关系,进而识别出有效语料和无效语料;解决了现有技术中收集语料的准确率和收集成本无法兼顾的问题,降低了语料收集的成本,同时提高了所收集语料的准确率。 | ||
搜索关键词: | 一种 语料 收集 方法 装置 系统 | ||
【主权项】:
1.一种语料收集方法,其特征在于,包括:在服务器中预置标准语料文本;声音采集装置检测任务启动指令,当检测到任务启动指令后开始采集基于所述标准语料文本录入的语音作为初始语料;利用语音识别技术把所述初始语料转换为初始文字,比较所述初始文字与所述标准语料文本的长度,当所述初始文字与所述标准语料文本的长度不一致时,则判断所述初始语料为无效语料,把所述初始语料存储至服务器中的无效语料库;当所述初始文字与所述标准语料文本的长度一致时,则进一步进行以下步骤,逐字比较所述初始文字与所述标准语料文本,当所述初始文字与所述标准语料文本的文字全部相同时,则判断所述初始语料为有效语料,把所述初始语料存储至服务器中的有效语料库;当所述初始文字与所述标准语料文本存在不相同的文字时,则分别提取所述初始文字和所述标准语料文本的拼音,计算所述初始文字的拼音相对于所述标准语料文本的拼音的编辑距离,所述初始文字的拼音相对于所述标准语料文本的拼音的编辑距离与所述标准语料文本的拼音的长度的比值记为所述初始语料的误差率,当所述初始语料的误差率不大于阈值α时,则判断所述初始语料为有效语料,把所述初始语料存储至服务器中的有效语料库;当所述初始语料的误差率大于阈值α时,则判断所述初始语料为无效语料,把所述初始语料存储至服务器中的无效语料库。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于龙马智芯(珠海横琴)科技有限公司,未经龙马智芯(珠海横琴)科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201910110199.6/,转载请声明来源钻瓜专利网。