[发明专利]一种数据处理方法及其相关产品在审
申请号: | 202211397865.7 | 申请日: | 2022-11-09 |
公开(公告)号: | CN115563551A | 公开(公告)日: | 2023-01-03 |
发明(设计)人: | 聂玲;尹将伯;刘梓田;杨洋;余泽豪 | 申请(专利权)人: | 北京中电普华信息技术有限公司 |
主分类号: | G06F18/2413 | 分类号: | G06F18/2413;G06F18/214;G06N3/0464;G06N3/094;G06F16/28 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 卫三娟 |
地址: | 102200 北京*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 数据处理 方法 及其 相关 产品 | ||
本申请公开了一种数据处理方法及其相关产品。该方法包括:从未标记数据集中确定信息量最大的结构化数据作为目标样本,并进行标记;未标记数据集中包括多个未被标记的结构化数据;对已标记的目标样本进行分析处理,生成与已标记的目标样本具有相同标记信息的新的样本;以新的样本更新用于训练结构化数据检测模型的已标记数据集;已标记数据集中包括多个已标记的结构化数据。如此,通过选取信息量最大的结构化数据作为目标样本进行标记,而非对未标记数据集中的所有样本均进行标记,可以节约标记数据的资源。并且,新的样本与目标样本具有相同标记信息,以新的样本扩充已标记数据集,可以进一步减少标记数据的计算资源和人力资源。
技术领域
本申请涉及计算机技术领域,尤其涉及一种数据处理方法及其相关产品。
背景技术
结构化数据,简单来说就是数据库。它是一种由二维表结构来表达逻辑和实现的数据,需要严格地遵循数据格式和长度规范。在实际应用中,较为典型的结构化数据,例如是身份证号、电话号码、姓名及家庭住址等。基于此,针对结构化数据的检测方案,便可及时发现结构化数据的异常情况,从而在数据安全方面具有重要意义,例如是实现社交网络恶意账号检测、金融交易欺诈检测等。
现有技术中,针对结构化数据的检测方案一般采取深度学习模型实现。虽然深度学习模型在结构化数据的检测方面效果较好,但在模型训练过程中,往往需要大量的计算资源和人力资源预先标记训练数据,导致训练代价较大。
发明内容
本申请实施例提供了一种数据处理方法及其相关产品,旨在采用较小的训练代价训练用于结构化数据的检测的模型。
第一方面,本申请实施例提供了一种数据处理方法,包括:
从未标记数据集中确定信息量最大的结构化数据作为目标样本,并进行标记;所述未标记数据集中包括多个未被标记的结构化数据;
对已标记的目标样本进行分析处理,生成与所述已标记的目标样本具有相同标记信息的新的样本;
以所述新的样本更新用于训练结构化数据检测模型的已标记数据集;所述已标记数据集中包括多个已标记的结构化数据。
可选地,所述从未标记数据集中确定信息量最大的结构化数据作为目标样本,包括:
基于蒙特卡洛的丢弃算法,确定用于选取所述目标样本的获取函数;
基于所述获取函数,并通过最大化算法,从所述未标记数据集中确定所述目标样本。
可选地,所述方法基于贝叶斯的深度学习框架实现;所述获取函数通过如下公式确定:
其中,a(X,M)为所述获取函数;X为所述未标记数据集中的样本;M为所述深度学习框架;c为样本类别;t为丢弃次数,t=0,1,…,T;为第t次丢弃时,所述深度学习框架的参数θ的估计值。
可选地,所述目标样本通过如下公式确定:
其中,X*为所述目标样本;argmax为所述最大化算法,X为所述未标记数据集中的样本;Dpool为所述未标记数据集;a(X,M)为所述获取函数。
可选地,所述方法基于贝叶斯的深度学习框架实现;所述深度学习框架包括编码器、解码器和鉴别器;所述对已标记的目标样本进行分析处理,生成与所述已标记的目标样本具有相同标记信息的新的样本,包括:
将所述已标记的目标样本输入至所述编码器,并通过所述解码器,得到所述解码器的输出结果作为所述新的样本;
利用所述鉴别器优化所述解码器,以使所述新的样本逼近真实样本。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京中电普华信息技术有限公司,未经北京中电普华信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211397865.7/2.html,转载请声明来源钻瓜专利网。