[发明专利]一种数据处理方法及其相关产品在审
申请号: | 202211397865.7 | 申请日: | 2022-11-09 |
公开(公告)号: | CN115563551A | 公开(公告)日: | 2023-01-03 |
发明(设计)人: | 聂玲;尹将伯;刘梓田;杨洋;余泽豪 | 申请(专利权)人: | 北京中电普华信息技术有限公司 |
主分类号: | G06F18/2413 | 分类号: | G06F18/2413;G06F18/214;G06N3/0464;G06N3/094;G06F16/28 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 卫三娟 |
地址: | 102200 北京*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 数据处理 方法 及其 相关 产品 | ||
1.一种数据处理方法,其特征在于,包括:
从未标记数据集中确定信息量最大的结构化数据作为目标样本,并进行标记;所述未标记数据集中包括多个未被标记的结构化数据;
对已标记的目标样本进行分析处理,生成与所述已标记的目标样本具有相同标记信息的新的样本;
以所述新的样本更新用于训练结构化数据检测模型的已标记数据集;所述已标记数据集中包括多个已标记的结构化数据。
2.根据权利要求1所述的方法,其特征在于,所述从未标记数据集中确定信息量最大的结构化数据作为目标样本,包括:
基于蒙特卡洛的丢弃算法,确定用于选取所述目标样本的获取函数;
基于所述获取函数,并通过最大化算法,从所述未标记数据集中确定所述目标样本。
3.根据权利要求2所述的方法,其特征在于,所述方法基于贝叶斯的深度学习框架实现;所述获取函数通过如下公式确定:
其中,a(X,M)为所述获取函数;X为所述未标记数据集中的样本;M为所述深度学习框架;c为样本类别;t为丢弃次数,t=0,1,…,T;为第t次丢弃时,所述深度学习框架的参数θ的估计值。
4.根据权利要求2所述的方法,其特征在于,所述目标样本通过如下公式确定:
其中,X*为所述目标样本;argmax为所述最大化算法,X为所述未标记数据集中的样本;Dpool为所述未标记数据集;a(X,M)为所述获取函数。
5.根据权利要求1至4任一项所述的方法,其特征在于,所述方法基于贝叶斯的深度学习框架实现;所述深度学习框架包括编码器、解码器和鉴别器;所述对已标记的目标样本进行分析处理,生成与所述已标记的目标样本具有相同标记信息的新的样本,包括:
将所述已标记的目标样本输入至所述编码器,并通过所述解码器,得到所述解码器的输出结果作为所述新的样本;
利用所述鉴别器优化所述解码器,以使所述新的样本逼近真实样本。
6.根据权利要求5所述的方法,其特征在于,所述深度学习框架还包括分类器;所述解码器通过变分自编码器VAE-辅助分类生成式对抗网络ACGAN实现;所述方法还包括:
基于所述VAE的重建损失和正则化损失,确定所述VAE的损失作为第一损失;所述第一损失用于优化所述VAE;
基于所述编码器、所述解码器、所述鉴别器和所述分类器,确定所述ACGAN的损失作为第二损失;所述第二损失用于优化所述ACGAN;
基于所述第一损失和所述第二损失,确定所述解码器的损失作为第三损失,并利用所述第三损失优化所述解码器。
7.根据权利要求2至4任一项所述的方法,其特征在于,所述方法还包括:
基于一阶泰勒公式,确定所述获取函数在所述新的样本下的值;
根据所述获取函数在所述新的样本下的值,评估所述新的样本的信息量。
8.一种数据处理装置,其特征在于,包括:
样本确定模块,用于从未标记数据集中确定信息量最大的结构化数据作为目标样本,并进行标记;所述未标记数据集中包括多个未被标记的结构化数据;
样本生成模块,用于对已标记的目标样本进行分析处理,生成与所述已标记的目标样本具有相同标记信息的新的样本;
数据集更新模块,用于以所述新的样本更新用于训练结构化数据检测模型的已标记数据集;所述已标记数据集中包括多个已标记的结构化数据。
9.一种数据处理设备,其特征在于,所述设备包括:处理器、存储器、系统总线;
所述处理器以及所述存储器通过所述系统总线相连;
所述存储器用于存储一个或多个程序,所述一个或多个程序包括指令,所述指令当被所述处理器执行时使所述处理器执行权利要求1至7任一项所述的数据处理方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有指令,当所述指令在终端设备上运行时,使得所述终端设备执行权利要求1至7任一项所述的数据处理方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京中电普华信息技术有限公司,未经北京中电普华信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211397865.7/1.html,转载请声明来源钻瓜专利网。