[发明专利]基于预训练模型的场景适配学习方法及系统在审
申请号: | 202010621371.7 | 申请日: | 2020-07-01 |
公开(公告)号: | CN111783881A | 公开(公告)日: | 2020-10-16 |
发明(设计)人: | 薛贵荣 | 申请(专利权)人: | 上海天壤智能科技有限公司 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06K9/32 |
代理公司: | 上海段和段律师事务所 31334 | 代理人: | 李佳俊;郭国中 |
地址: | 201100 上海市闵行*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 训练 模型 场景 学习方法 系统 | ||
本发明提供了一种基于预训练模型的场景适配学习方法及系统,包括:场景接入步骤:根据场景实际的业务需求,接入场景的实际数据;场景配置步骤:通过接入的场景数据快速进行场景数据的模版配置;数据生成步骤:模版配置准备完成后,进行数据生成,完成数据增强和带标注信息的训练数据准备;模型训练步骤:根据生成的训练数据,进一步训练预训练模型,提升预训练模型的精确度。本发明通过预训练的模型和当前场景的生成数据,我们可以快速获得该场景下的高质量模型,同时,因为有预先训练好的模型,可以大大节约训练的时间。
技术领域
本发明涉及计算机人工智能领域,具体地,涉及基于预训练模型的场景适配学习方法及系统。尤其地,涉及算法模型在应用场景变化的情况下模型如何适配并调优的技术。
背景技术
目前,深度学习技术在计算机图像识别、语音识别、自然语言处理等领域取得了非常显著的进展,并达到了商业可用的阶段。
深度学习算法的一般学习过程是:首先,需要标注大量的训练样本;然后,通过调用训练系统对标注的数据进行训练学习,获得模型。在接下来的应用场景中使用学习到的模型进行识别和预测等机器学习任务。
深度学习进行学习的一个首要条件就是必须给训练系统提供大量充分标注好的数据,以供训练系统去学习。
在真实的场景下,获取到大量的标注数据往往非常挑战。有可能因为保密和安全等多种因素,我们仅仅能够获得非常少的标注数据。在这种情况下,训练一个高质量的模型就变得非常挑战,为学习场景提供高质量的机器学习模型就极为重要。
本发明就是为了解决:在数据非常稀少的场景或者场景效果不佳的情况下,基于预训练模型和实际场景数据,利用场景配置和数据生成两个模块,生成大量场景相关数据,并对预训练的模型进行进一步的训练,最终获得该场景下的优化模型。本场景优化模型在OCR、图像检测、图像识别等场景都可以适用。
专利文献CN109597943A(申请号:201811539961.4)公开了一种基于场景的学习内容推荐方法及学习设备,该方法包括:控制学习设备中的摄像装置拍摄用户的当前场景图像;通过分析当前场景图像识别出当前场景信息;获取与当前场景信息对应的场景标签;从多个预设的知识点类型标签中搜索与场景标签相匹配且用户测评等级最高的目标知识点类型标签,其中,一个知识点类型标签对应一个用户测评等级,该用户测评等级与用户对知识点类型标签对应的学习内容的测评正确率成正比;从预设数据库提取与目标知识点类型标签相适配的目标学习内容;将目标学习内容推荐给用户。
发明内容
针对现有技术中的缺陷,本发明的目的是提供一种基于预训练模型的场景适配学习方法及系统。
根据本发明提供的一种基于预训练模型的场景适配学习方法,其特征在于,包括:
场景接入步骤:根据场景实际的业务需求,接入实际场景数据;
场景配置步骤:通过接入的实际场景数据快速进行实际场景数据的模版配置;
数据生成步骤:模版配置准备完成后,进行数据生成,完成数据增强和带标注信息的训练数据准备;
模型训练步骤:根据生成的训练数据,进一步训练预训练模型,提升预训练模型的精确度。
优选地,所述场景的实际数据指真实识别场景数据的样本,包括:证照、图片以及车牌。
优选地,所述场景配置步骤包括:
区域圈选:根据场景的图片,对需要识别的区域进行圈选,为在该区域生成新的数据提供一个长方形空间,同时记录这个位置空间的坐标。
数据配置:配合接下来的生产新的训练数据提供标注对象,定义圈选对象内所需生成的数据基本属性,包括数据内容、数据样式以及数据效果,同时定义模板整体施加效果及支持定义输出时的标准答案相关格式及内容。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海天壤智能科技有限公司,未经上海天壤智能科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010621371.7/2.html,转载请声明来源钻瓜专利网。