[发明专利]训练样本排查方法及其装置、设备、介质、产品在审

专利信息
申请号: 202111160251.2 申请日: 2021-09-30
公开(公告)号: CN113887622A 公开(公告)日: 2022-01-04
发明(设计)人: 徐进添 申请(专利权)人: 广州华多网络科技有限公司
主分类号: G06K9/62 分类号: G06K9/62;G06N3/04;G06N3/08
代理公司: 广州利能知识产权代理事务所(普通合伙) 44673 代理人: 王增鑫
地址: 511442 广东省广*** 国省代码: 广东;44
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 训练 样本 排查 方法 及其 装置 设备 介质 产品
【说明书】:

本申请公开一种训练样本排查方法及其装置、设备、介质、产品,所述方法包括:获取被训练模型根据未标注的训练样本的特征表示进行分类生成的概率分布数据,所述被训练模型为神经网络模型;构造用于表示所述训练样本与其概率分布数据的映射关系数据的特征图谱,将特征图谱添加到图谱库中;根据预设筛选策略对所述图谱库中的特征图谱进行筛选,确定其中概率分布数据命中该筛选策略的目标训练样本;获取所述目标训练样本的人工标注的监督标签,据以对所述训练模型实施有监督训练。本申请能够筛选出具有数据特点的未标识训练样本供人工标注循环投入对被训练模型的有监督训练,从而提升被训练模型的收敛效率,减少被训练模型对训练样本的依赖。

技术领域

本申请涉及信息技术领域,尤其涉及一种训练样本排查方法及其相应的装 置、计算机设备、计算机可读存储介质,以及计算机程序产品。

背景技术

神经网络模型的训练,依赖于大数据,因此,训练样本的多寡对模型的收 敛起关键作用。目前解决训练样本稀少的常用方式包括对训练样本做数据增强、 进行半监督学习、微调、迁移学习等方式,这些常用方式在某种程度上改善了 问题,然后在很多应用领域中,由于数据分布稀疏、无标注的情况依然存在, 这些常用手段所能贡献的效果依然是有限的。

典型的,例如在电商信息处理技术领域,特别是基于独立站的跨境电商领 域,每家独立站内,商品类目树中不同叶端节点所对应的训练样本差别非常大, 如果依赖于这些常用手段,部分类目的训练样本,依然难以完成训练任务。

另一方面,现有技术在进行自监督或半监督学习的过程中,一些未标注训 练样本存在自身的数据特征,使得其被模型分类时未能得到良好的分类结果, 这种情况下,这些训练样本自身的数据价值并未被有效利用,因此,仍残存对 这部分未标识训练样本进行二次数据挖掘的可能性。

有鉴于此,本申请人做出相应的探索,期望在现有技术的基础上做出相应 的贡献。

发明内容

本申请的首要目的在于解决上述问题至少之一而提供一种训练样本排查方 法及其相应的装置、计算机设备、计算机可读存储介质、计算机程序产品。

为满足本申请的各个目的,本申请采用如下技术方案:

适应本申请的目的之一而提供的一种训练样本排查方法,包括如下步骤:

获取被训练模型根据未标注的训练样本的特征表示进行分类生成的概率分 布数据,所述被训练模型为神经网络模型;

构造用于表示所述训练样本与其概率分布数据的映射关系数据的特征图谱, 将特征图谱添加到图谱库中;

根据预设筛选策略对所述图谱库中的特征图谱进行筛选,确定其中概率分 布数据命中该筛选策略的目标训练样本;

获取所述目标训练样本的人工标注的监督标签,据以对所述训练模型实施 有监督训练。

深化的实施例中,获取被训练模型根据未标注的训练样本的特征表示进行 分类生成的概率分布数据,包括如下步骤:

启动至少一个训练任务用于对所述被训练模型进行训练;

将所述未标注的训练样本输入所述被训练模型进行表示学习,获得相应的 特征表示;

将所述特征表示进行全连接后映射到分类空间,由分类器对应各个训练任 务计算出分类空间中各个分类标签相对应的概率值;

提取各个分类标签的概率值构成所述训练样本的概率分布数据。

深化的实施例中,构造用于表示所述训练样本与其概率分布数据的映射关 系数据的特征图谱,将特征图谱添加到图谱库中,包括如下步骤:

获取每个训练样本相对应的概率分布数据;

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广州华多网络科技有限公司,未经广州华多网络科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202111160251.2/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top