[发明专利]特征处理方法、装置、介质和计算设备在审
申请号: | 202010753536.6 | 申请日: | 2020-07-30 |
公开(公告)号: | CN111859928A | 公开(公告)日: | 2020-10-30 |
发明(设计)人: | 陈明明;叶宜拓;任鹏飞;谢煜锋;潘照明 | 申请(专利权)人: | 网易传媒科技(北京)有限公司 |
主分类号: | G06F40/253 | 分类号: | G06F40/253;G06F40/30;G06F8/41 |
代理公司: | 北京市铸成律师事务所 11313 | 代理人: | 杨瑾瑾;林军 |
地址: | 100193 北京市海淀区西北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 特征 处理 方法 装置 介质 计算 设备 | ||
本发明的实施方式提供了一种特征处理方法、装置、介质和计算设备。该方法包括:基于特征工程配置项,生成运算单元列表;基于所述运算单元列表,生成输出特征列表以及输出特征的计算路径;基于目标特征及其对应的计算路径,确定待处理的属性数据记录以及目标运算单元;其中,所述目标特征为所述输出特征列表中的输出特征;基于所述待处理的属性数据记录以及所述目标运算单元进行运算得到输出结果,将所述输出结果赋值给所述目标特征,基于目标格式输出所述目标特征。本发明实施例能够提高特征处理的效率。
技术领域
本发明的实施方式涉及信息处理领域,更具体地,本发明的实施方式涉及一种特征处理方法、装置、介质和计算设备。
背景技术
本部分旨在为权利要求书中陈述的本发明的实施方式提供背景或上下文。此处的描述不因为包括在本部分中就承认是现有技术。
相关技术中,特征处理方法中主要是在程序代码中直接使用特征处理函数对特征逐个进行处理,或者从数据表中抽取字段进行特征处理。然而,上述的处理方法中,存在特征工程策略可读性差,通用程度低,迭代周期长,不易复用等问题,如此会影响特征处理的效率。
发明内容
本发明期望提供一种特征处理方法、装置、介质和计算设备,以至少解决上述技术问题。
在本发明实施方式的第一方面中,提供了一种特征处理方法,包括:
基于特征工程配置项,生成运算单元列表;其中,所述运算单元列表中包含至少一个运算单元及其对应的输入和输出;其中,所述特征工程配置项基于预定义的运算单元以及预定义的可用属性生成;
基于所述运算单元列表,生成输出特征列表以及输出特征的计算路径;其中,所述输出特征列表中输出特征的全部计算路径包含的运算单元为所述运算单元列表中的至少部分运算单元;
基于目标特征及其对应的计算路径,确定待处理的属性数据记录以及目标运算单元;其中,所述目标特征为所述输出特征列表中的输出特征;
基于所述待处理的属性数据记录以及所述目标运算单元进行运算得到输出结果,将所述输出结果赋值给所述目标特征,基于目标格式输出所述目标特征。
在本发明的一个实施例中,所述预定义的运算单元,包括以下内容至少之一:
运算单元名称、功能说明、输入字段、输入字段数据格式、输出字段、输出字段数据格式、运行参数和使用样例。
在本发明的一个实施例中,所述方法还包括:
对所述特征工程配置项进行语义校验和/或语法校验;
若所述特征工程配置项存在语义校验错误和/或语法校验错误,则生成第一提示信息;其中,所述第一提示信息包括以下至少之一:错误配置的位置、错误原因、错误类型。
在本发明的一个实施例中,所述基于所述运算单元列表,生成输出特征列表以及输出特征的计算路径,包括:
根据所述运算单元列表中包含的至少一个运算单元的输入输出依赖关系,生成运算单元特征依赖图;其中,所述运算单元特征依赖图为有向无环图;
删除所述运算单元特征依赖图中的N个运算单元,得到调整后的运算单元特征依赖图;其中,所述N个运算单元为非最终输出特征直接或间接依赖的运算单元;N为整数;
基于调整后的运算单元特征依赖图,生成输出特征列表以及输出特征的计算路径。
在本发明的一个实施例中,所述基于调整后的运算单元特征依赖图,生成输出特征列表以及输出特征的计算路径,还包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于网易传媒科技(北京)有限公司,未经网易传媒科技(北京)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010753536.6/2.html,转载请声明来源钻瓜专利网。