[发明专利]数据处理方法、装置、服务器和存储介质有效
申请号: | 201911343379.5 | 申请日: | 2019-12-24 |
公开(公告)号: | CN111090686B | 公开(公告)日: | 2023-04-18 |
发明(设计)人: | 华鹏;谢明辰;康伟乐 | 申请(专利权)人: | 腾讯科技(深圳)有限公司 |
主分类号: | G06F16/2458 | 分类号: | G06F16/2458;G06F16/27;G06F16/28 |
代理公司: | 深圳翼盛智成知识产权事务所(普通合伙) 44300 | 代理人: | 汪阮磊 |
地址: | 518057 广东省深圳*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 数据处理 方法 装置 服务器 存储 介质 | ||
本发明实施例公开了一种数据处理方法、装置、服务器和存储介质;本发明实施例获取目标算子、数据血缘网络和目标数据实体集,目标数据实体集中包括多个目标数据实体,数据血缘网络中包括多个节点,以及节点之间的流向线路;在数据血缘网络中确定目标节点,以及与目标节点相连的相关节点,目标节点对应目标数据实体,相关节点对应其他数据实体;根据目标节点和相关节点之间的流向线路,生成目标数据实体和其他数据实体之间的实体关系信息;基于实体关系信息以及目标算子构建目标数据实体的特征集合;对特征集合中的特征进行评分预测,得到特征集合中特征的预测评分;根据预测评分在特征集合中确定预测特征。本方案可以提升数据处理的效率。
技术领域
本发明涉及计算机领域,具体涉及一种数据处理方法、装置、服务器和存储介质。
背景技术
特征工程(Feature engineering)又叫作特征构造,是基于现有数据来构造新特征,从而利用这些新特征来训练机器学习模型的过程。其中,构造新特征的过程中往往需要对现有数据之间的关系进行深入的分析,才能从现有数据中提取有用的特征信息。
然而,由于每个新特征可能都需要经过多个步骤去构造,尤其是那些与多个现有数据有关的特征,所以目前新特征的构造是一个非常耗时的过程,且需要人工干预才能够顺利地对现有数据进行新特征的提取处理,因此,目前用于特征构造的数据处理方法效率低下。
发明内容
本发明实施例提供一种数据处理方法、装置、服务器和存储介质,可以提升数据处理方法的效率。
本发明实施例提供一种数据处理方法,包括:
获取目标算子、数据血缘网络和目标数据实体集,所述目标数据实体集中包括多个目标数据实体,所述数据血缘网络中包括多个节点,以及所述节点之间的流向线路;
在所述数据血缘网络中确定目标节点,以及与所述目标节点相连的相关节点,所述目标节点对应目标数据实体,所述相关节点对应其他数据实体;
根据所述目标节点和相关节点之间的流向线路,生成所述目标数据实体和其他数据实体之间的实体关系信息;
基于所述实体关系信息以及目标算子构建所述目标数据实体的特征集合;
对所述特征集合中的特征进行评分预测,得到所述特征集合中特征的预测评分;
根据所述预测评分在特征集合中确定预测特征。
本发明实施例还提供一种数据处理装置,包括:
获取单元,用于获取目标算子、数据血缘网络和目标数据实体集,所述目标数据实体集中包括多个目标数据实体,所述数据血缘网络中包括多个节点,以及所述节点之间的流向线路;
节点单元,用于在所述数据血缘网络中确定目标节点,以及与所述目标节点相连的相关节点,所述目标节点对应目标数据实体,所述相关节点对应其他数据实体;
关系单元,用于根据所述目标节点和相关节点之间的流向线路,生成所述目标数据实体和其他数据实体之间的实体关系信息;
特征单元,用于基于所述实体关系信息以及目标算子构建所述目标数据实体的特征集合;
评分单元,用于对所述特征集合中的特征进行评分预测,得到所述特征集合中特征的预测评分;
预测单元,用于根据所述预测评分在特征集合中确定预测特征。
在一些实施例中,所述获取单元,包括:
获取子单元,用于获取用户的数据处理指令,以及数据库集群的历史操作信息;
确定子单元,用于基于所述数据处理指令确定目标算子和目标数据实体;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯科技(深圳)有限公司,未经腾讯科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911343379.5/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种纳米银导电膜用涂布液
- 下一篇:一种冲击电流抑制装置