[发明专利]一种模型训练方法及系统在审
申请号: | 201810637462.2 | 申请日: | 2018-06-20 |
公开(公告)号: | CN108984629A | 公开(公告)日: | 2018-12-11 |
发明(设计)人: | 孙亮 | 申请(专利权)人: | 四川斐讯信息技术有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06K9/62 |
代理公司: | 上海硕力知识产权代理事务所(普通合伙) 31251 | 代理人: | 郭桂峰 |
地址: | 610100 四川省成*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 训练模型 训练集数据 模型训练 图像数据 图像数据输入 人工工作量 准确度 爬虫 迭代更新 项目要求 预设 清洗 筛选 优化 | ||
本发明公开了一种模型训练方法及系统,该方法包括:步骤S1爬取符合预设爬虫条件的图像数据;步骤S2将所述图像数据输入至初次训练模型,筛选出训练集数据;步骤S3使用所述训练集数据对所述初次训练模型进行训练,得到最终训练模型。本发明通过初次训练模型自动对图像数据进行清洗,减少人工工作量、数据可靠;且自行进行迭代更新,自动对模型进行优化,得到的最终训练模型的准确度较高,符合项目要求。
技术领域
本发明涉及模型训练领域,尤其涉及一种模型训练方法及系统。
背景技术
目前图片识别的AI(Artificial Intelligence,人工智能)进行模型训练时,使用到大量的训练数据,这些训练数据是由人工进行清洗得到。
人工清洗得到训练数据的过程工作量极其浩大,且由于每个人筛选时的主观印象不同,造成人工筛选出来的训练数据质量不统一。例如:冬瓜排骨汤,图片上只有排骨汤,没有冬瓜,但是图片名字写了冬瓜排骨汤,有的人觉得这张可以留下,有的人觉得不可以留下。
训练数据的质量涉及到整个训练模型的准确度,使用人工清洗的训练数据训练模型会使训练出来的模型准确度较低,且训练过程工作量较大。
发明内容
本发明的目的是提供一种模型训练方法及系统,提高训练的模型的准确度,降低人工工作量。
本发明提供的技术方案如下:
一种模型训练方法,包括:步骤S1爬取符合预设爬虫条件的图像数据;步骤S2将所述图像数据输入至初次训练模型,筛选出训练集数据;步骤S3使用所述训练集数据对所述初次训练模型进行训练,得到最终训练模型。
在上述技术方案中,通过初次训练模型自动、快速地从图像数据中筛选出训练集数据,减少了人工干预,且判断指标一致,提高了训练集数据的准确性。
进一步,还包括:步骤S4当所述最终训练模型的准确度未达到预设准确度阈值时,使用所述最终训练模型更新所述步骤S2中的初次训练模型,并跳转至步骤S1。
在上述技术方案中,自行进行迭代更新,自动对模型进行优化,得到的最终训练模型的准确度较高,符合项目要求。
进一步,所述步骤S2中的未被所述最终训练模型更新的所述初次训练模型是使用典型图片集训练得到。
在上述技术方案中,定义一开始使用的初次训练模型,为后续的循环迭代打下基础。
进一步,所述步骤S2具体为:步骤S21将所述图像数据输入至初次训练模型,得到所述图像数据中每个图片的置信度;步骤S22筛选出所述置信度位于预设置信度范围的图片作为所述训练集数据。
在上述技术方案中,预设置信度范围可自行设置,使训练集数据的可靠度处于可控状态。
进一步,所述步骤S1具体为:步骤S11根据预设爬虫条件中的主体名称,爬取与所述主体名称相关的所述图像数据。
在上述技术方案中,预设爬虫条件的不同,爬取出的相关图像数据也不同,可应用于不同数据类型的爬虫需求。
本发明还提供一种模型训练系统,包括:爬虫模块,用于爬取符合预设爬虫条件的图像数据;筛选模块,用于将所述图像数据输入至初次训练模型,筛选出训练集数据;训练模块,用于使用所述训练集数据对所述初次训练模型进行训练,得到最终训练模型。
在上述技术方案中,通过初次训练模型自动、快速地从图像数据中筛选出训练集数据,减少了人工干预,且判断指标一致,提高了训练集数据的准确性。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于四川斐讯信息技术有限公司,未经四川斐讯信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810637462.2/2.html,转载请声明来源钻瓜专利网。