[发明专利]训练样本的选取方法、装置、计算机设备和存储介质有效
申请号: | 201911015081.1 | 申请日: | 2019-10-24 |
公开(公告)号: | CN110910864B | 公开(公告)日: | 2023-02-03 |
发明(设计)人: | 付嘉懿;茹旷;潘晟锋;刘峰;刘云峰 | 申请(专利权)人: | 深圳追一科技有限公司 |
主分类号: | G10L15/06 | 分类号: | G10L15/06;G06N3/08 |
代理公司: | 深圳智汇远见知识产权代理有限公司 44481 | 代理人: | 蒋学超 |
地址: | 518051 广东省深圳市南山区粤海街道*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 训练 样本 选取 方法 装置 计算机 设备 存储 介质 | ||
本申请涉及一种训练样本的选取方法、装置、计算机设备和存储介质。所述方法包括:根据初始训练样本集进行模型训练,得到第一识别模型;所述初始训练样本集中包括多个初始训练样本和各所述初始训练样本对应的标注;基于所述第一识别模型构造至少一个第二识别模型,并将所述第一识别模型和至少一个所述第二识别模型组成识别模型集合;根据所述识别模型集合从多个不具有标注的候选训练样本中选取出目标训练样本,所述目标训练样本为富含信息的训练样本。通过本发明实施例,由识别模型集合从多个候选训练样本中选取目标训练样本,不仅节省时间,而且节省人力成本。
技术领域
本申请涉及模型训练技术领域,特别是涉及一种训练样本的选取方法、装置、计算机设备和存储介质。
背景技术
随着科技的发展,语音识别技术取得了显著进步,其应用在工业、家电、通信、汽车电子、医疗、家庭服务、消费电子产品等各个领域。
相关技术中,将待识别的语音数据输入到训练好的语音识别模型中,即可得到语音识别结果。在训练语音识别模型之前,通常需要选取出一定数量的无标注语音数据,并对这些无标注语音数据进行人工标注得到带标注语音数据。
但是,目前选取出一定数量的无标注语音数据为人工选取,不仅耗费时间和人力成本,而且选取出的语音数据也可能不适用于模型训练。
发明内容
基于此,有必要针对上述技术问题,提供一种能够节省时间和人力成本的训练样本的选取方法、装置、计算机设备和存储介质。
第一方面,本发明实施例提供了一种训练样本的选取方法,该方法包括:
根据初始训练样本集进行模型训练,得到第一识别模型;初始训练样本集中包括多个初始训练样本和各初始训练样本对应的标注;
基于第一识别模型构造至少一个第二识别模型,并将第一识别模型和至少一个第二识别模型组成识别模型集合;
根据识别模型集合从多个不具有标注的候选训练样本中选取出目标训练样本,目标训练样本为富含信息的训练样本。
在其中一个实施例中,上述基于第一识别模型构造至少一个第二识别模型,包括:
对第一识别模型中的网络单元进行随机舍弃,得到舍弃网络单元后的至少一个第二识别模型。
在其中一个实施例中,上述根据识别模型集合从多个不具有标注的候选训练样本中选取出目标训练样本,包括:
针对每个候选训练样本,将候选训练样本分别输入到第一识别模型和第二识别模型中,得到第一识别模型输出的第一标注和第二识别模型输出的第二标注;
计算第一标注和第二标注之间的差异度;
若差异度在预先设置的差异度范围内,则将候选训练样本确定为目标训练样本。
在其中一个实施例中,上述计算第一标注和第二标注之间的差异度,包括:
计算第一标注与多个第二标注的差异度的均值;
或,计算第一标注与多个第二标注中的差异度的最低值。
在其中一个实施例中,在计算第一标注和第二标注之间的差异度之后,还包括:
若差异度在差异度范围内,且第一标注对应的置信度在预先设置的置信度范围内,则将候选训练样本确定为目标训练样本。
在其中一个实施例中,该方法还包括:
获取标注人员对各目标训练样本的标注,得到目标训练样本集;目标训练样本集中包含多个目标训练样本和各目标训练样本对应的标注;
根据初始训练样本集和目标训练样本集进行模型训练,得到目标识别模型。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳追一科技有限公司,未经深圳追一科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911015081.1/2.html,转载请声明来源钻瓜专利网。
- 上一篇:CPCI总线远距离扩展及控制传输系统
- 下一篇:一种煤矿用喷雾降尘设备