[发明专利]自动生成累积特征的方法及系统在审
申请号: | 201911086011.5 | 申请日: | 2019-11-08 |
公开(公告)号: | CN110880040A | 公开(公告)日: | 2020-03-13 |
发明(设计)人: | 苗加成;李文博 | 申请(专利权)人: | 支付宝(杭州)信息技术有限公司 |
主分类号: | G06N20/00 | 分类号: | G06N20/00;G06K9/62 |
代理公司: | 北京国昊天诚知识产权代理有限公司 11315 | 代理人: | 许振新;朱文杰 |
地址: | 310000 浙江省杭州市*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 自动 生成 累积 特征 方法 系统 | ||
本申请公开了一种自动生成累积特征的方法及其系统。该方法包括:预先对N种特征类型分别设置N个聚合函数集合,每个函数集合包含一种或多种聚合函数,用于对对应类型的特征进行聚合,N为正整数;对于每一个主体特征,获取与该主体特征相关的事件的各个特征,对所获取的每一个特征根据其特征类型使用对应的聚合函数集合中的聚合函数分别进行聚合,其中每一个聚合函数得到一个聚合特征;将通过聚合所得的各个聚合特征组成备选的累积特征集合。
技术领域
本说明书涉及人工智能技术领域。
背景技术
在机器学习领域,经常需要设计主体在历史一段时间的累积特征。常规的累积特征都是由有经验的专家进行人工设计,对专家经验强依赖,且耗时耗力,容易遗漏重要特征。
发明内容
本说明书提供了一种自动生成累积特征的方法及系统,可以自动生成有可能被使用的所有累积特征,使机器学习模型设计过程更加智能化。
本申请公开了一种自动生成累积特征的方法,包括:
预先对于N种特征类型,分别设置N个聚合函数集合,每个函数集合中包含一种或多种聚合函数,用于对对应类型的特征进行聚合,N为正整数;
对于每一个主体特征,获取与该主体特征相关的事件的各个特征,对所获取的每一个特征根据其特征类型使用对应的聚合函数集合中的聚合函数分别进行聚合,其中每一个聚合函数得到一个聚合特征;
将通过聚合所得的各个聚合特征组成备选的累积特征集合。
在一个优选例中,所述对于每一个主体特征,获取与该主体特征相关的事件的各个特征,对所获取的每一个特征根据其特征类型使用对应的聚合函数集合中的聚合函数分别进行聚合,进一步包括:
预先设置多个不同长度的时间窗口,在每一个时间窗口中,对于每一个主体特征,获取与该主体特征相关的事件的各个特征,对所获取的每一个特征根据其特征类型使用对应的聚合函数集合中的聚合函数分别进行聚合。
在一个优选例中,所述主体特征是单个的特征和/或多个特征的组合。
在一个优选例中,所述N种特征类型包括以下之一或其任意组合:
类别型,数值型,布尔型。
在一个优选例中,所述聚合函数集合包括对类别型特征的聚合函数,对数值型特征的聚合函数,和对布尔型特征的聚合函数。
在一个优选例中,所述类别型特征的聚合函数包括以下之一或其任意组合:非空值计数,特异值计数;
所述数值型特征的聚合函数包括以下之一或其任意组合:求和,求最大值,求最小值,求均值,求中位数,求标准差;
所述布尔型特征的聚合函数包括以下之一或其任意组合:求和、求平均值。
在一个优选例中,所述对于每一个主体特征,获取与该主体特征相关的事件的各个特征,对所获取的每一个特征根据其特征类型使用对应的聚合函数集合中的聚合函数分别进行聚合,其中每一个聚合函数得到一个聚合特征,进一步包括:
根据事件记录的数据生成图,其中,每一条事件记录作为一个事件节点,各事件记录中每一个主体类型的值分别作为一个主体特征节点,并与包含该值的各事件记录所对应的事件节点连接;
进行至少一次迭代操作,将各次迭代操作所得的各个主体特征向量或事件特征向量级联后得到所述图的图嵌入向量,其中第K次迭代操作的步骤如下:
对于每一个主体特征节点,使用预先设定的聚合函数集合中的各聚合函数,对于与该主体特征节点相连的所有事件节点的第K-1次迭代的事件特征向量中的特征,分别根据该特征的类型使用相应的聚合函数进行聚合,将聚合所得的各聚合特征级联,得到该主体特征节点的第K次迭代的主体特征向量;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于支付宝(杭州)信息技术有限公司,未经支付宝(杭州)信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911086011.5/2.html,转载请声明来源钻瓜专利网。