[发明专利]训练样本筛选方法、装置、电子设备及存储介质在审
申请号: | 202010568902.0 | 申请日: | 2020-06-19 |
公开(公告)号: | CN111881936A | 公开(公告)日: | 2020-11-03 |
发明(设计)人: | 王峰;邓锦君;李磊;罗恒亮;张庆 | 申请(专利权)人: | 北京三快在线科技有限公司 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06N3/04;G06F21/36 |
代理公司: | 北京润泽恒知识产权代理有限公司 11319 | 代理人: | 任亚娟 |
地址: | 100083 北京市海*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 训练 样本 筛选 方法 装置 电子设备 存储 介质 | ||
本公开提供了一种训练样本筛选方法、装置、电子设备及计算机可读存储介质。所述方法包括:根据训练样本集中任意两个训练样本的样本特征之间的关联性,确定待筛选样本集;根据待筛选样本集中每个训练样本与每个训练样本的邻接训练样本之间的连接关系,从待筛选样本集中筛选出预设个数的训练样本,生成候选样本集;每个训练样本的邻接训练样本是指与训练样本具有连接关系的训练样本;根据候选样本集中每个训练样本与每个训练样本的邻接训练样本,确定每个训练样本对应的标签融合信息熵;根据各标签融合信息熵,从候选样本集中筛选出用于训练图卷积神经网络的目标训练样本。本公开能够使用较少的样本数量达到全量数据所获得的性能,减少计算耗时。
技术领域
本公开的实施例涉及互联网技术领域,尤其涉及一种训练样本筛选方法、装置、电子设备及计算机可读存储介质。
背景技术
滑块验证作为一种快捷且有效的人机验证手段,在反爬,批量注册等风控领域是基础能力和强需求。除了使用人工策略进行分析外,大多算法采用深度学习DNN(DeepNeural Network,深层神经网络)、GNN(GraphNeural Network,图神经网络)对滑块轨迹和运动特征特进行分析和识别。近来的研究结果表明:GNN有着比DNN更高的精度和更长的模型退化周期。为了达到理想的性能,GNN需要使用大量的标签样本和预测样本共同作为节点进行建图。大量节点的建图在计算上的耗时成为了线上微服务实时部署的瓶颈。
发明内容
本公开的实施例提供一种训练样本筛选方法、装置、电子设备及计算机可读存储介质,用以对图卷积神经网络的训练样本进行筛选,能够使用较少的样本数量达到全量数据所获得的性能,同时极大地减少了计算耗时。
根据本公开的实施例的第一方面,提供了一种训练样本筛选方法,包括:
根据训练样本集中任意两个训练样本的样本特征之间的关联性,确定待筛选样本集;
根据所述待筛选样本集中每个所述训练样本与每个所述训练样本的邻接训练样本之间的连接关系,从所述待筛选样本集中筛选出预设个数的训练样本,生成候选样本集;所述每个所述训练样本的邻接训练样本是指与所述训练样本具有连接关系的训练样本;
根据所述候选样本集中每个所述训练样本与每个所述训练样本的邻接训练样本,确定每个所述训练样本对应的标签融合信息熵;
根据各所述标签融合信息熵,从所述候选样本集中筛选出用于训练图卷积神经网络的目标训练样本。
可选地,所述根据训练样本集中任意两个训练样本的样本特征之间的关联性,确定待筛选样本集,包括:
根据所述训练样本集中的各个训练样本,构建训练样本图;每个所述训练样本为所述训练样本图上的一个节点;
计算得到所述训练样本集中任意两个节点的样本特征之间的欧式距离;
在所述欧式距离小于或者等于距离阈值时,确定所述任意两个节点之间具有关联关系;
根据所述训练样本图上所有具有关联关系的节点,生成所述待筛选样本集。
可选地,所述根据所述训练样本图上所有具有关联关系的节点,生成所述待筛选样本集,包括:
在任意两个节点之间的欧式距离小于或者等于所述距离阈值时,将所述任意两个节点相连接;
循环次执行上述在任意两个节点之间的欧式距离小于或者等于所述距离阈值时,将所述任意两个节点相连接,生成连接的两个节点步骤;
直到对所述训练样本集中的所有样本执行完成后,剔除所述训练样本图上没有连接关系的训练样本,得到所述待筛选样本集。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京三快在线科技有限公司,未经北京三快在线科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010568902.0/2.html,转载请声明来源钻瓜专利网。