[发明专利]一种基于路径的特征生成方法及装置有效
申请号: | 201911254655.0 | 申请日: | 2019-12-10 |
公开(公告)号: | CN110688433B | 公开(公告)日: | 2020-04-21 |
发明(设计)人: | 卢翠兰 | 申请(专利权)人: | 银联数据服务有限公司 |
主分类号: | G06F16/28 | 分类号: | G06F16/28;G06N20/00 |
代理公司: | 北京同达信恒知识产权代理有限公司 11291 | 代理人: | 姚晓雨 |
地址: | 201201 上海市浦*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 路径 特征 生成 方法 装置 | ||
本发明公开了一种基于路径的特征生成方法及装置,其中,方法包括:获取数据集中的实体和属性,根据实体生成包括多个第一有向关系的有向关系集合,针对有向关系集合中的任一个第一有向关系,若确定第一有向关系中的第一实体和第二实体具有相同属性,则根据相同属性生成虚拟类实体,根据虚拟类实体和第一有向关系生成第二有向关系,将第二有向关系加入至有向关系集合中,根据有向关系集合和目标实体,生成目标实体的关系路径集合,再根据目标实体的关系路径集合,生成目标实体的特征集合。该技术方案用于自动生成目标实体的目标特征,节约人力成本,且生成的特征集合可解释。
技术领域
本发明实施例涉及人工智能技术领域,尤其涉及一种基于路径的特征生成方法及装置。
背景技术
企业业务发展积累了大量、多维度的结构化数据。机器学习模型比起专家制定规则的方法,在处理海量数据以实现业务目标的效率和效果上往往更好。从数据中挖掘出有效的特征对于模型效果而言有着决定性作用。
在特征提取过程中,专家需要结合业务目标和自身积累的实践经验,人工进行特征工程,以确定出用于建立模型的特征集合,但该方式不仅需要耗费大量的人力和时间,而且受专家主观性影响较大,获取到的特征集合的标准不一致。一般自动特征工程使用暴力组合的形式,生成的特征可解释性较弱。
发明内容
本发明实施例提供一种基于路径的特征生成方法及装置,用于自动生成目标实体的目标特征,节约人力成本,且生成的特征集合可解释。
本发明实施例提供的一种基于路径的特征生成方法,包括:
获取数据集中的实体和属性;所述实体包括行为类实体和实物类实体;
根据所述数据集中的实体生成包括多个第一有向关系的有向关系集合;所述第一有向关系包括第一实体指向第二实体,所述第一实体和所述第二实体是所述数据集中的实体的任意两个,所述第一实体和所述第二实体在所述数据集中是多对一关系;
针对所述有向关系集合中的任一个第一有向关系,若确定所述第一有向关系中的第一实体和所述第二实体具有相同属性,则根据所述相同属性生成虚拟类实体;根据所述虚拟类实体和所述第一有向关系生成第二有向关系,将所述第二有向关系加入至所述有向关系集合中;所述第二有向关系包括所述第一实体指向所述虚拟类实体和所述虚拟类实体指向所述第二实体;
根据所述有向关系集合和目标实体,生成所述目标实体的关系路径集合;
根据所述目标实体的关系路径集合,生成所述目标实体的特征集合;所述目标实体的特征集合用于以所述目标实体为样本的模型训练中。
可选的,所述根据所述有向关系集合和目标实体,生成所述目标实体的关系路径集合,包括:
将所述有向关系集合中的有向关系顺序组合,生成指向所述目标实体的多个关系路径;
将所述多个关系路径组成所述目标实体的关系路径集合。
可选的,所述将所述有向关系集合中的有向关系顺序组合,生成指向所述目标实体的多个关系路径,包括:
若确定生成仅包括两个实物类实体且路径长度为1的第一关系路径,则根据所述两个实物类实体的相同属性,将所述第一关系路径更新为所述两个实物类实体的相同属性连接所述两个实物类实体的路径长度为2的第二关系路径;
其中,所述路径长度指关系路径内有向关系的个数。
可选的,所述根据所述目标实体的关系路径集合,生成所述目标实体的特征集合,包括:
以路径长度递增的顺序,根据所述关系路径集合中各关系路径生成所述关系路径对应的所述目标实体的特征集合,并记录各个特征对应的属性;
其中,所述根据关系路径生成所述关系路径对应的所述目标实体的特征集合,包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于银联数据服务有限公司,未经银联数据服务有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911254655.0/2.html,转载请声明来源钻瓜专利网。
- 上一篇:物资监控方法及系统
- 下一篇:一种兴趣点处理方法、装置、设备和介质