[发明专利]处理数据表的方法及系统有效
申请号: | 201911189241.4 | 申请日: | 2019-11-28 |
公开(公告)号: | CN110955659B | 公开(公告)日: | 2023-02-21 |
发明(设计)人: | 秦川;周振华 | 申请(专利权)人: | 第四范式(北京)技术有限公司 |
主分类号: | G06F16/22 | 分类号: | G06F16/22;G06N3/0442;G06N20/00 |
代理公司: | 北京铭硕知识产权代理有限公司 11286 | 代理人: | 徐璐璐;曾世骁 |
地址: | 100085 北京市海淀区上*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 处理 数据表 方法 系统 | ||
提供了一种处理数据表的方法及系统。所述处理数据表的方法包括:获取基础样本表和至少一个关联数据表;针对基础样本表中的每条基础样本,使用特定结构的神经网络对所述至少一个关联数据表中的与该条基础样本关联的数据进行处理,得到与该条基础样本对应的特征。根据所述处理数据表的方法及系统,能够使用神经网络来实现数据表拼接及特征提取。
技术领域
本发明总体说来涉及数据处理领域,更具体地讲,涉及一种处理数据表的方法及系统。
背景技术
随着各行业海量数据的出现,需要在越来越多的场景下对数据进行各种处理,例如,数据表拼接、特征提取等处理。
神经网络虽然在图像、语音、文本等输入较为标准的领域比较通用,但对于数据集多样、数据表较多的场景下的机器学习问题依然没有通用的方案,通常需要人工手动进行多表拼接、特征提取,然后再基于提取的特征使用神经网络进行机器学习模型训练或机器学习模型预测。
发明内容
本发明的示例性实施例在于提供一种处理数据表的方法及系统,其能够使用特定结构的神经网络来实现数据表拼接及特征提取。
根据本发明的示例性实施例,提供一种处理数据表的方法,包括:获取基础样本表和至少一个关联数据表;针对基础样本表中的每条基础样本,使用特定结构的神经网络对所述至少一个关联数据表中的与该条基础样本关联的数据进行处理,得到与该条基础样本对应的特征。
可选地,所述至少一个关联数据表包括:至少一个静态表和/或至少一个流水表。
可选地,基础样本表中的字段包括:至少一个主体ID字段、时间字段和标签字段;所述至少一个静态表的主键是主体ID字段;所述至少一个流水表的主键是主体ID字段和时间字段。
可选地,所述特定结构的神经网络包括:多个隐藏层、第一拼接层、第二拼接层和融合层,其中,针对基础样本表中的每条基础样本,使用特定结构的神经网络对所述至少一个关联数据表中的与该条基础样本关联的数据进行处理,得到与该条基础样本对应的特征的步骤包括:针对基础样本表中的每条基础样本,将每个静态表中与该条基础样本对应的数据记录中属于每种字段类型的字段的字段值,输入到所述多个隐藏层之中与该字段类型对应的隐藏层,其中,与所述至少一个静态表中的各个字段类型一一对应的隐藏层的输出作为第一拼接层的输入;针对基础样本表中的每条基础样本,将每个流水表中与该条基础样本对应的数据记录中属于每种字段类型的字段的字段值,输入到所述多个隐藏层之中与该字段类型对应的隐藏层,其中,与所述至少一个流水表中的各个字段类型一一对应的隐藏层的输出经由第二拼接层作为所述多个隐藏层中的特定隐藏层的输入;将所述融合层输出的向量作为:与基础样本表中的每条基础样本对应的特征,其中,第一拼接层的输出和所述特定隐藏层的输出作为所述融合层的输入,其中,所述特定隐藏层的输入为向量序列,且输出为固定维度的向量。
可选地,与所述至少一个静态表中的类别型字段对应的隐藏层为:第一嵌入层,其中,第一嵌入层的输出为嵌入向量;与所述至少一个静态表中的时间字段对应的隐藏层为:做差层,其中,所述做差层用于将静态表中的时间字段的字段值与基础样本表中的时间字段的字段值做差;与所述至少一个流水表中的类别型字段对应的隐藏层为:第二嵌入层,其中,第二嵌入层的输出为嵌入向量。
可选地,与所述至少一个静态表中的数值型字段对应的隐藏层为:第一全连接层;与所述至少一个流水表中的数值型字段对应的隐藏层为:第二全连接层。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于第四范式(北京)技术有限公司,未经第四范式(北京)技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911189241.4/2.html,转载请声明来源钻瓜专利网。