[发明专利]训练样本排查方法及其装置、设备、介质、产品在审
申请号: | 202111160251.2 | 申请日: | 2021-09-30 |
公开(公告)号: | CN113887622A | 公开(公告)日: | 2022-01-04 |
发明(设计)人: | 徐进添 | 申请(专利权)人: | 广州华多网络科技有限公司 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06N3/04;G06N3/08 |
代理公司: | 广州利能知识产权代理事务所(普通合伙) 44673 | 代理人: | 王增鑫 |
地址: | 511442 广东省广*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 训练 样本 排查 方法 及其 装置 设备 介质 产品 | ||
1.一种训练样本排查方法,其特征在于,包括如下步骤:
获取被训练模型根据未标注的训练样本的特征表示进行分类生成的概率分布数据,所述被训练模型为神经网络模型;
构造用于表示所述训练样本与其概率分布数据的映射关系数据的特征图谱,将特征图谱添加到图谱库中;
根据预设筛选策略对所述图谱库中的特征图谱进行筛选,确定其中概率分布数据命中该筛选策略的目标训练样本;
获取所述目标训练样本的人工标注的监督标签,据以对所述训练模型实施有监督训练。
2.根据权利要求1所述的训练样本排查方法,其特征在于,获取被训练模型根据未标注的训练样本的特征表示进行分类生成的概率分布数据,包括如下步骤:
启动至少一个训练任务用于对所述被训练模型进行训练;
将所述未标注的训练样本输入所述被训练模型进行表示学习,获得相应的特征表示;
将所述特征表示进行全连接后映射到分类空间,由分类器对应各个训练任务计算出分类空间中各个分类标签相对应的概率值;
提取各个分类标签的概率值构成所述训练样本的概率分布数据。
3.根据权利要求2所述的训练样本排查方法,其特征在于,构造用于表示所述训练样本与其概率分布数据的映射关系数据的特征图谱,将特征图谱添加到图谱库中,包括如下步骤:
获取每个训练样本相对应的概率分布数据;
构造所述训练样本的特征图谱,该特征图谱包括该训练样本与其所映射的分类标签相对应的概率值之间的映射关系数据;
将所述特征图谱添加至所述的图谱库中。
4.根据权利要求2所述的训练样本排查方法,其特征在于,所述筛选策略按照如下任意一种或任意多种方式进行配置:
所述筛选策略被配置为针对图谱库中各训练样本相对应的特征图谱,筛选出概率分布数据中最大概率与次大概率差值低于第一预定阈值的目标训练样本。
所述筛选策略被配置为针对图谱库中各训练样本相对应的特征图谱,筛选出概率分布数据的信息熵超过第二预设阈值的目标训练样本。
所述筛选策略被配置为针对图谱库中各训练样本相对应的特征图谱,筛选出概率分布数据中最大概率低于第三预设阈值的目标训练样本。
5.根据权利要求1至4中任意一项所述的训练样本排查方法,其特征在于,获取所述目标训练样本的人工标注的监督标签,据以对所述训练模型实施有监督训练,包括如下步骤:
获取为所述目标训练样本人工标注的监督标签;
以目标训练样本及其监督标签更新样本库中相应的未标注训练样本的数据记录;
创建训练任务启动对所述被训练模型实施有监督训练,训练过程中以所述目标训练样本为输入,以其相应的监督标签监督分类所得的概率分布数据对被训练模型实施梯度更新。
6.根据权利要求1至4中任意一项所述的训练样本排查方法,其特征在于,所述被训练模型为文本特征提取模型或图像特征提取模型,相应的,所述训练样本为商品对象的标题文本或商品图片。
7.一种训练样本排查装置,其特征在于,包括:
概率获取模块,用于获取被训练模型根据未标注的训练样本的特征表示进行分类生成的概率分布数据,所述被训练模型为神经网络模型;
图谱生成模块,用于构造用于表示所述训练样本与其概率分布数据的映射关系数据的特征图谱,将特征图谱添加到图谱库中;
样本筛选模块,用于根据预设筛选策略对所述图谱库中的特征图谱进行筛选,确定其中概率分布数据命中该筛选策略的目标训练样本;
循环训练模块,用于获取所述目标训练样本的人工标注的监督标签,据以对所述训练模型实施有监督训练。
8.一种计算机设备,包括中央处理器和存储器,其特征在于,所述中央处理器用于调用运行存储于所述存储器中的计算机程序以执行如权利要求1至7中任意一项所述的方法的步骤。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广州华多网络科技有限公司,未经广州华多网络科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111160251.2/1.html,转载请声明来源钻瓜专利网。