[发明专利]语音信息的批量筛选方法、装置、计算机设备及存储介质在审

申请号：	201910197526.6	申请日：	2019-03-15
公开（公告）号：	CN110059059A	公开（公告）日：	2019-07-26
发明（设计）人：	王涛	申请（专利权）人：	平安科技（深圳）有限公司
主分类号：	G06F16/14	分类号：	G06F16/14;G06F16/172;G06F16/61;G06F16/683;G10L15/06;G10L15/16;G10L15/26
代理公司：	深圳市精英专利事务所 44242	代理人：	邓星文
地址：	518000 广东省深圳市福田区福***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	文件夹地址语音信息预设特征信息输出筛选信息处理指令计算机设备文件夹存储介质读取语音信息存储依次读取语音筛选训练集脚本调用匹配统一
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明实施例公开了一种语音信息的批量筛选方法、装置、计算机设备及存储介质，其中所述方法包括若接收到信息处理指令，获取预设的训练集所在的文件夹的输入文件夹地址；根据所述信息处理指令确定预设阀值以及预设的第一输出文件夹地址、第二输出文件夹地址；读取所述输入文件夹地址以获取所有的待处理语音信息；调用预设的语音筛选脚本以分别提取每个待处理语音信息的特征信息；依次读取所有的特征信息以判断其是否与预设阀值相匹配；若是，将该特征信息所对应的待测语音信息存储至第二输出文件夹地址所对应的第二输出文件夹中以用于批量输出。本发明可以高效准确地实现对训练集中的多个待处理语音信息的统一筛选，并减少筛选过程的错误。

技术领域

本发明涉及数据处理领域，尤其涉及一种语音信息的批量筛选方法、装置、计算机设备及存储介质。

背景技术

在语音识别项目中通常需要从各种渠道收集或采集大量语音信息，并利用这些语音信息作为训练集中的训练样本对神经网络进行训练，从而得到相应的用于进行特征的语音识别的识别模型。而为了确保神经网络的训练过程的顺利以及所获取的识别模型的精准性，通常需要对所获取的语音信息进行训练前的预先处理，如有效语音信息的筛选等，而实现对大量的语音信息的预处理工作需要逐步迭代才能完成，但是重复迭代处理的过程因数据量大，非常容易出现操作失误，造成语音信息筛选不准确的问题。

发明内容

本发明实施例提供一种语音信息的批量筛选方法、装置、计算机设备及存储介质，能够高效准确地实现对训练集中的多个待处理语音信息的统一筛选，并减少筛选过程的错误。

第一方面，本发明实施例提供了一种语音信息的批量筛选方法，该方法包括：

若接收到信息处理指令，获取预设的训练集所在的文件夹的地址，并将该地址作为输入文件夹地址，所述训练集包括多个待处理语音信息；

根据所述信息处理指令确定预设阀值以及预设的第一输出文件夹地址、第二输出文件夹地址，其中，所述第一输出文件夹地址为第一输出文件夹被保存的地址，所述第一输出文件夹包括多个可读文本文件，所述第二输出文件夹地址为第二输出文件夹被保存的地址；

读取所述输入文件夹地址以获取所有的待处理语音信息；

调用预设的语音筛选脚本以分别提取每个待处理语音信息的特征信息，并将每个待处理语音信息的特征信息分别写入不同的可读文本文件中；

依次读取所述第一输出文件夹中的所有的可读文本文件中的特征信息以判断所述可读文本文件中的特征信息是否与预设阀值相匹配；

若所述可读文本文件中的特征信息与预设阀值相匹配，则将该可读文本文件所对应的待测语音信息存储至所述第二输出文件夹中以用于批量输出。

第二方面，本发明实施例还提供了一种语音信息的批量筛选装置，该装置包括用于执行上述方法的单元。

第三方面，本发明实施例还提供了一种计算机设备，其包括存储器及处理器，所述存储器上存储有计算机程序，所述处理器执行所述计算机程序时实现上述方法。

第四方面，本发明实施例还提供了一种计算机可读存储介质，所述存储介质存储有计算机程序，所述计算机程序当被处理器执行时可实现上述方法。