[发明专利]特征处理方法、装置、介质和计算设备在审
申请号: | 202010753536.6 | 申请日: | 2020-07-30 |
公开(公告)号: | CN111859928A | 公开(公告)日: | 2020-10-30 |
发明(设计)人: | 陈明明;叶宜拓;任鹏飞;谢煜锋;潘照明 | 申请(专利权)人: | 网易传媒科技(北京)有限公司 |
主分类号: | G06F40/253 | 分类号: | G06F40/253;G06F40/30;G06F8/41 |
代理公司: | 北京市铸成律师事务所 11313 | 代理人: | 杨瑾瑾;林军 |
地址: | 100193 北京市海淀区西北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 特征 处理 方法 装置 介质 计算 设备 | ||
1.一种特征处理方法,包括:
基于特征工程配置项,生成运算单元列表;其中,所述运算单元列表中包含至少一个运算单元及其对应的输入和输出;其中,所述特征工程配置项基于预定义的运算单元以及预定义的可用属性生成;
基于所述运算单元列表,生成输出特征列表以及输出特征的计算路径;其中,所述输出特征列表中输出特征的全部计算路径包含的运算单元为所述运算单元列表中的至少部分运算单元;
基于目标特征及其对应的计算路径,确定待处理的属性数据记录以及目标运算单元;其中,所述目标特征为所述输出特征列表中的输出特征;
基于所述待处理的属性数据记录以及所述目标运算单元进行运算得到输出结果,将所述输出结果赋值给所述目标特征,基于目标格式输出所述目标特征。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
对所述特征工程配置项进行语义校验和/或语法校验;
若所述特征工程配置项存在语义校验错误和/或语法校验错误,则生成第一提示信息;其中,所述第一提示信息包括以下至少之一:错误配置的位置、错误原因、错误类型。
3.根据权利要求1所述的方法,其特征在于,所述基于所述运算单元列表,生成输出特征列表以及输出特征的计算路径,包括:
根据所述运算单元列表中包含的至少一个运算单元的输入输出依赖关系,生成运算单元特征依赖图;其中,所述运算单元特征依赖图为有向无环图;
删除所述运算单元特征依赖图中的N个运算单元,得到调整后的运算单元特征依赖图;其中,所述N个运算单元为非最终输出特征直接或间接依赖的运算单元;N为整数;
基于调整后的运算单元特征依赖图,生成输出特征列表以及输出特征的计算路径。
4.根据权利要求3所述的方法,其特征在于,所述基于调整后的运算单元特征依赖图,生成输出特征列表以及输出特征的计算路径,还包括:
根据每一个运算单元依赖的属性所属的不同对象,将所述调整后的运算单元特征依赖图划分为至少一个子图;其中,至少一个子图包含第一类子图以及第二类子图;所述第一类子图中的至少部分运算单元的输出作为第二类子图中的至少部分运算单元的输入;
基于所述至少一个子图,生成输出特征列表以及所述输出特征列表中包含的输出特征的计算路径。
5.根据权利要求1-4任一项所述的方法,其特征在于,所述方法还包括:
对所述待处理的属性数据记录进行校验,得到校验结果;其中,所述校验结果用于表征待处理的属性数据记录是否超出属性数据范围,或待处理的属性数据记录的类型与输出特征类型是否匹配;
当所述检验结果表征待处理的属性数据记录存在错误时,生成第二提示信息;其中,所述第二提示信息用于指示待处理的属性数据记录出现错误,以及提示出错的属性名称、错误原因和原始数据中至少之一。
6.根据权利要求1所述的方法,其特征在于,所述方法还包括:
在所述目标运算单元中存在无输入输出依赖关系的运算单元的情况下,控制所述无输入输出依赖关系的运算单元进行并行计算。
7.根据权利要求1所述的方法,其特征在于,确定目标格式的方式,包括:
基于所述特征工程配置项确定所述目标格式,或根据传入参数请求确定所述目标格式;所述传入参数请求中包含指定的所述目标格式;
其中,所述目标格式包括以下至少之一:原始特征数据、索引为特征名稀疏格式特征向量、索引为哈希值的稀疏格式特征向量、带名称的稠密向量、不带名称的稠密向量。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于网易传媒科技(北京)有限公司,未经网易传媒科技(北京)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010753536.6/1.html,转载请声明来源钻瓜专利网。