[发明专利]语音识别模型的数据集清洗方法在审

申请号：	202111498658.6	申请日：	2021-12-09
公开（公告）号：	CN114187901A	公开（公告）日：	2022-03-15
发明（设计）人：	刘述琨;江增强;赵波凯	申请（专利权）人：	杭州国芯科技股份有限公司
主分类号：	G10L15/06	分类号：	G10L15/06;G10L15/04;G10L15/10;G10L15/26
代理公司：	杭州君度专利代理事务所(特殊普通合伙) 33240	代理人：	陈炜
地址：	310012 浙江省杭州市文***	国省代码：	浙江;33
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	语音识别模型数据清洗方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.语音识别模型的数据集清洗方法，其特征在于，该方法具体如下：

步骤(1)数据集初步清洗，所述数据集中包括多个音频文件和对应的标注文件，剔除音频文件和标注文件中大小为0字节的空文件；

步骤(2)将数据集全部语音识别音频数据进行如下处理：

(2-1)检测每个音频文件是否全为静音，剔除纯静音的内容为空的文件；

(2-2)检测每个音频文件的头部和尾部是否有静音部分，剔除头尾静音部分；

(2-3)将数据集中每个音频文件的语音音频幅度进行归一化处理；

(2-4)将数据集中每个标注文件的字符编码进行归一化处理，统一将字符编码修改为当前清洗主机电脑可识别的字符编码；

步骤(3)云端ASR识别数据集；将处理后数据集中的音频文件通过网络同步上传至多个云端ASR平台，进行内容识别，取得每个音频文件的识别结果文本；

步骤(4)数据集识别结果比对及清洗；对于一个音频文件，查询每个云端ASR平台返回的结果构成的识别结果文本，进行如下处理：

(4-1)如果多个云端ASR平台返回的结果构成的识别结果文本存在有空文本，则直接判断为比对不一致，直接剔除该音频文件及对应的标注文件；

(4-2)如果多个云端ASR平台返回的结果构成的识别结果文本均有内容，则将每个云端ASR平台对应的识别结果文本与该音频文件对应的标注文件进行内容比对：首先查找对应的标注文件和识别结果文件中的内容中的阿拉伯数字字符，将阿拉伯数字字符转换成中文字符；然后查找数字转换后的对应的标注文件和识别结果文件中的内容中的中文字符，将中文字符转换拼音字符；再将中文转换后的对应的标注文件和识别结果文件中的所有大写字母转换为小写；最后比对大小写转换后的对应的标注文件和识别结果文件的内容，如果所有识别结果文本与对应的标注文件内容均一致，保留原始该音频文件及对应的原始标注文件，否则剔除该音频文件及对应的标注文件；

步骤(5)比对正确的音频文件及对应的标注文件移到清洗正确目录下。

2.如权利要求1所述的语音识别模型的数据集清洗方法，其特征在于，步骤(2)中利用VAD算法检测每个音频文件是否全为静音，以及每个音频文件的头部和尾部是否有静音部分。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于杭州国芯科技股份有限公司，未经杭州国芯科技股份有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202111498658.6/1.html，转载请声明来源钻瓜专利网。

上一篇：一种基于QR-GRU的发电厂统计数据预测校验方法
下一篇：一种相干阵激光器的无透镜聚焦装置及方法

同类专利

专利分类

G 物理

G10 乐器；声学
G10L 语音分析或合成；语音识别；音频分析或处理
G10L15-00 语音识别
G10L15-02 .语音识别的特征提取；识别单位的选择
G10L15-04 .分段或字极限检测
G10L15-06 .创建基准模板；训练语音识别系统，例如对说话者声音特征的适应
G10L15-08 .语音分类或检索
G10L15-20 .专门适用于不利环境

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]语音识别模型的数据集清洗方法在审

专利文献下载