[发明专利]多元信息的特征融合方法、装置、设备及存储介质有效
申请号: | 201910619856.X | 申请日: | 2019-07-10 |
公开(公告)号: | CN110347688B | 公开(公告)日: | 2020-09-11 |
发明(设计)人: | 曾宪宇 | 申请(专利权)人: | 星环信息科技(上海)有限公司 |
主分类号: | G06F16/22 | 分类号: | G06F16/22;G06F16/215;G06F16/2455 |
代理公司: | 北京品源专利代理有限公司 11332 | 代理人: | 孟金喆 |
地址: | 200233 上海市*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 多元 信息 特征 融合 方法 装置 设备 存储 介质 | ||
本发明实施例公开了一种多元信息的特征融合方法、装置、设备及存储介质。所述方法使用分布式的方式实现,包括:获取至少两个数据源表、数据源表之间的关联关系以及初始目标表;选择指定的数据源表作为目标表,并根据数据源表之间的关联关系,查询目标表的关联表;从关联表的多元信息中提取特征并融合到目标表中;对融合特征进行有效性验证,并删除未通过有效性验证的无效特征;返回融合其他数据源表中多元信息的最终目标表。本发明实施例的技术方案,实现了对多个数据源表中的多元信息自动进行特征融合,并删除无效的融合特征的功能,达到了减少人力成本的开销,降低错误的发生率的效果。
技术领域
本发明实施例涉及数据挖掘技术领域,尤其涉及一种多元信息的特征融合方法、装置、设备及存储介质。
背景技术
随着科技的发展和人们生活水平的提高,数据资源日益增多,考虑到数据存储与业务发展的便利性,服务商通常会将一个业务所产生的数据分开存储到不同的数据表中。例如,对于电商业务来说,用户属性一般存在一个单独的用户信息表中,它记录了用户的年龄,性别,地址等基本信息,而用户的消费信息则存在另一个交易表中,它记录了用户在购买某件商品的时间、数量、折扣信息等。
在一般的数据挖掘建模场景下,建模人员首先会对各个表的字段完成一些基本统计分析,然后会综合利用各个来源的信息提取用户不同类型特征,形成一个“特征宽表”。仍以上面提到的场景为例,如果要预测用户接下来一段时间的消费情况,除了需要知道用户的基本信息(性别、年龄等)通常还需要用户的消费信息(平均消费额、最常消费时段、最常消费商品类型等),这些消费信息就需要建模人员手动从消费表中提取并与用户基本信息表结合在一起形成新的特征表。
现有的特征融合方法需要工作人员按照表的逻辑关系、字段内容以及工作人员的业务知识等规划融合逻辑,综合利用各个来源的信息提取不同类型特征。这种手动方式非常依赖于工作人员的业务素质,需要其花费大量的时间和精力完成一些重复性较高的繁杂操作,并且在数据表或字段数量较多时很容易发生错误。
为了帮助建模人员从这种繁杂劳动中解放出来,已有一些自动化的特征提取和融合工具被提出,但是现有的融合工具仍然存在一些缺点限制了融合工具的大范围应用:
1)采用单机方法实现,扩展性较差。在大数据时代,工业级应用的数据量很容易超过GB甚至TB量级,单机工具无法应用。
2)仅提供了Python的接口,在与使用其他语言和接口实现的工具配合时不是很方便。
3)虽然融合了多元数据,但是里面包含较多无效特征,仍然需要一些手动筛选的工作。
发明内容
本发明实施例提供一种多元信息的特征融合方法、装置、设备及存储介质,以实现对多个数据源表中的多元信息自动进行特征融合,并删除无效的融合特征的功能,实现减少人力成本的开销,降低错误的发生率的效果。此外,本发明使用分布式方式实现,能够良好的适用于工业级的大规模数据量集。
第一方面,本发明实施例提供了一种多元信息的特征融合方法,所述方法使用分布式的方式实现,包括:
获取至少两个数据源表、数据源表之间的关联关系以及初始目标表;
在特征融合过程中,从未被查询的数据源表中,选择当前目标表,并从未被查询的数据源表中,根据数据源表之间的关联关系,查询当前目标表的关联表;
将所述关联表中的多元信息进行特征提取并融合到所述当前目标表中;
对所述当前目标表中的融合特征自动化地进行有效性验证,并删除所述当前目标表中未通过有效性验证的无效特征;
返回执行当前目标表的选择操作以及关联表的查询操作,直到初始目标表的关联表均已被查询,得到最终目标表。
可选的,所述获取至少两个数据源表、数据源表之间的关联关系以及初始目标表,包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于星环信息科技(上海)有限公司,未经星环信息科技(上海)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910619856.X/2.html,转载请声明来源钻瓜专利网。
- 信息记录介质、信息记录方法、信息记录设备、信息再现方法和信息再现设备
- 信息记录装置、信息记录方法、信息记录介质、信息复制装置和信息复制方法
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录设备、信息重放设备、信息记录方法、信息重放方法、以及信息记录介质
- 信息存储介质、信息记录方法、信息重放方法、信息记录设备、以及信息重放设备
- 信息存储介质、信息记录方法、信息回放方法、信息记录设备和信息回放设备
- 信息记录介质、信息记录方法、信息记录装置、信息再现方法和信息再现装置
- 信息终端,信息终端的信息呈现方法和信息呈现程序
- 信息创建、信息发送方法及信息创建、信息发送装置