[发明专利]数据集的构建方法和装置、移动终端、可读存储介质在审
申请号: | 201810588652.X | 申请日: | 2018-06-08 |
公开(公告)号: | CN108764372A | 公开(公告)日: | 2018-11-06 |
发明(设计)人: | 刘耀勇 | 申请(专利权)人: | OPPO广东移动通信有限公司 |
主分类号: | G06K9/62 | 分类号: | G06K9/62 |
代理公司: | 广州华进联合专利商标代理有限公司 44224 | 代理人: | 方高明 |
地址: | 523860 广东*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 数据集 第一数据 分类模型 方法和装置 精度信息 训练分类 移动终端 筛选 构建 预设 标注 计算机可读存储介质 可读存储介质 半自动化 标注信息 目标数据 人力成本 任务获取 数据采集 数据合并 分类 清洗 携带 节约 评估 申请 学习 | ||
1.一种数据集的构建方法,其特征在于,包括:
根据学习任务获取具有第一预设数量且携带标注信息的第一数据集;
在所述第一数据集上训练分类模型,并评估所述分类模型的精度信息;
当所述精度信息达到预设值时,则基于训练后的所述分类模型筛选未标注的数据,将筛选出的数据合并至所述第一数据集以形成第二数据集;
基于训练后的所述分类模型对所述第二数据集的数据进行分类、清洗以形成具有目标数量的目标数据集,其中,第二数据集的数据数量大于等于目标数据集的数据数量;
其中,所述基于训练后的所述分类模型对所述第二数据集的数据进行分类、清洗以形成具有目标数量的目标数据集,包括:
基于训练后的所述分类模型对所述第二数据集的数据进行分类以筛选出不符合预设要求的数据;
对所述不符合预设要求的数据进行清洗;
判断清洗后的数据数量是否达到目标数量;
若是,则根据清洗后的数据形成所述目标数据集;
若否,则再次基于训练后的所述分类模型分类筛选未标注的数据并形成新的第二数据集,并对所述新的第二数据集进行分类、清洗以形成具有目标数量的目标数据集。
2.根据权利要求1所述的方法,其特征在于,还包括:
当所述精度信息未达到预设值时,则获取具有第二预设数量且携带标注信息的新数据;
将所述新数据合并至所述第一数据集中,形成第三数据集;
在所述第三数据集上再次训练所述分类模型,直到所述分类模型的精度信息达到预设值。
3.根据权利要求1所述的方法,其特征在于,所述根据学习任务获取具有第一预设数量且携带标注信息的第一数据集,包括:
根据所述学习任务定义待获取数据的图像类别和对象类别;
根据所述图像类别和对象类别获取数据;
基于人工标注方式对获取的数据进行标注,以获取具有第一预设数量且携带标注信息的第一数据集。
4.根据权利要求1所述的方法,其特征在于,所述分类模型为神经网络,所述标注信息包括图像类别和对象类别;
所述在所述第一数据集上训练所述分类模型,并评估所述分类模型的精度信息,包括:
将携带标注信息的第一数据集输入到神经网络,通过所述神经网络的基础网络层进行特征提取,将提取的图像特征输入到分类网络层和目标检测网络层,在所述分类网络层得到反映所述数据中背景图像所属指定图像类别的第一预测置信度与第一真实置信度之间的差异的第一损失函数,在所述目标检测网络层得到反映所述数据中前景目标所属指定对象类别的第二预测置信度与第二真实置信度之间的差异的第二损失函数;
将所述第一损失函数和第二损失函数进行加权求和得到目标损失函数;
根据所述目标损失函数调整所述神经网络的参数;
基于第一数据集中的测试集对所述神经网络进行测试,获取所述神经网络的精度信息。
5.根据权利要求1所述的方法,其特征在于,基于训练后的所述分类模型分类筛选未标注的数据,将筛选出的数据合并至所述第一数据集以形成第二数据集,包括:
基于训练后的所述分类模型对未标注的数据进行分类以筛选出具有预设类别的数据;
在筛选结果中获取包括第三预设数量的数据;其中,所述第三预设数量为每种所述预设类别的数据数量之和;
将所述第三预设数量的数据合并至所述第一数据集以形成第二数据集。
6.根据权利要求4任一项所述的方法,其特征在于,还包括:
在所述目标数据集上再次训练所述分类模型。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于OPPO广东移动通信有限公司,未经OPPO广东移动通信有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810588652.X/1.html,转载请声明来源钻瓜专利网。