[发明专利]语音信息的批量筛选方法、装置、计算机设备及存储介质在审
申请号: | 201910197526.6 | 申请日: | 2019-03-15 |
公开(公告)号: | CN110059059A | 公开(公告)日: | 2019-07-26 |
发明(设计)人: | 王涛 | 申请(专利权)人: | 平安科技(深圳)有限公司 |
主分类号: | G06F16/14 | 分类号: | G06F16/14;G06F16/172;G06F16/61;G06F16/683;G10L15/06;G10L15/16;G10L15/26 |
代理公司: | 深圳市精英专利事务所 44242 | 代理人: | 邓星文 |
地址: | 518000 广东省深圳市福田区福*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文件夹地址 语音信息 预设 特征信息 输出 筛选 信息处理指令 计算机设备 文件夹 存储介质 读取 语音信息存储 依次读取 语音筛选 训练集 脚本 调用 匹配 统一 | ||
本发明实施例公开了一种语音信息的批量筛选方法、装置、计算机设备及存储介质,其中所述方法包括若接收到信息处理指令,获取预设的训练集所在的文件夹的输入文件夹地址;根据所述信息处理指令确定预设阀值以及预设的第一输出文件夹地址、第二输出文件夹地址;读取所述输入文件夹地址以获取所有的待处理语音信息;调用预设的语音筛选脚本以分别提取每个待处理语音信息的特征信息;依次读取所有的特征信息以判断其是否与预设阀值相匹配;若是,将该特征信息所对应的待测语音信息存储至第二输出文件夹地址所对应的第二输出文件夹中以用于批量输出。本发明可以高效准确地实现对训练集中的多个待处理语音信息的统一筛选,并减少筛选过程的错误。
技术领域
本发明涉及数据处理领域,尤其涉及一种语音信息的批量筛选方法、装置、计算机设备及存储介质。
背景技术
在语音识别项目中通常需要从各种渠道收集或采集大量语音信息,并利用这些语音信息作为训练集中的训练样本对神经网络进行训练,从而得到相应的用于进行特征的语音识别的识别模型。而为了确保神经网络的训练过程的顺利以及所获取的识别模型的精准性,通常需要对所获取的语音信息进行训练前的预先处理,如有效语音信息的筛选等,而实现对大量的语音信息的预处理工作需要逐步迭代才能完成,但是重复迭代处理的过程因数据量大,非常容易出现操作失误,造成语音信息筛选不准确的问题。
发明内容
本发明实施例提供一种语音信息的批量筛选方法、装置、计算机设备及存储介质,能够高效准确地实现对训练集中的多个待处理语音信息的统一筛选,并减少筛选过程的错误。
第一方面,本发明实施例提供了一种语音信息的批量筛选方法,该方法包括:
若接收到信息处理指令,获取预设的训练集所在的文件夹的地址,并将该地址作为输入文件夹地址,所述训练集包括多个待处理语音信息;
根据所述信息处理指令确定预设阀值以及预设的第一输出文件夹地址、第二输出文件夹地址,其中,所述第一输出文件夹地址为第一输出文件夹被保存的地址,所述第一输出文件夹包括多个可读文本文件,所述第二输出文件夹地址为第二输出文件夹被保存的地址;
读取所述输入文件夹地址以获取所有的待处理语音信息;
调用预设的语音筛选脚本以分别提取每个待处理语音信息的特征信息,并将每个待处理语音信息的特征信息分别写入不同的可读文本文件中;
依次读取所述第一输出文件夹中的所有的可读文本文件中的特征信息以判断所述可读文本文件中的特征信息是否与预设阀值相匹配;
若所述可读文本文件中的特征信息与预设阀值相匹配,则将该可读文本文件所对应的待测语音信息存储至所述第二输出文件夹中以用于批量输出。
第二方面,本发明实施例还提供了一种语音信息的批量筛选装置,该装置包括用于执行上述方法的单元。
第三方面,本发明实施例还提供了一种计算机设备,其包括存储器及处理器,所述存储器上存储有计算机程序,所述处理器执行所述计算机程序时实现上述方法。
第四方面,本发明实施例还提供了一种计算机可读存储介质,所述存储介质存储有计算机程序,所述计算机程序当被处理器执行时可实现上述方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于平安科技(深圳)有限公司,未经平安科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910197526.6/2.html,转载请声明来源钻瓜专利网。