[发明专利]数据流处理在审
申请号: | 202110651377.3 | 申请日: | 2021-06-11 |
公开(公告)号: | CN113806401A | 公开(公告)日: | 2021-12-17 |
发明(设计)人: | S·J·迈克纳马拉;E·W·德雷斯齐恩斯基 | 申请(专利权)人: | 甲骨文国际公司 |
主分类号: | G06F16/2455 | 分类号: | G06F16/2455;G06F16/22 |
代理公司: | 中国贸促会专利商标事务所有限公司 11038 | 代理人: | 边海梅 |
地址: | 美国加*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 数据流 处理 | ||
1.一种方法,包括:
将多个数据记录分区为多个批,包括(a)第一批数据记录和(b)第二批数据记录;
至少通过以下方式处理第一批:
识别与第一批对应的第一多个字段,所述第一多个字段包括特定字段;
分析第一批中与所述特定字段相关联的第一值集合,以确定与所述特定字段对应的一个或多个字段类型的第一推断集合;
与(a)所述特定字段和(b)字段类型的第一推断集合的相应推断字段类型相关联地对第一值集合建立索引;
至少通过以下方式处理第二批:
识别与第二批对应的第二多个字段,所述第二多个字段包括所述第一多个字段中包括的相同特定字段;
分析第二批中与所述特定字段相关联的第二值集合,以确定与所述特定字段对应的一个或多个字段类型的第二推断集合,
其中与所述特定字段对应的一个或多个字段类型的第一推断集合不同于与所述特定字段对应的一个或多个字段类型的第二推断集合;以及
与(a)所述特定字段和(b)字段类型的第二推断集合的相应推断字段类型相关联地对第二值集合建立索引。
2.如权利要求1所述的方法,其中:
与所述特定字段对应的第一推断字段类型集合包括两个或更多个字段类型;以及
与所述特定字段对应的第二推断字段类型集合由单个字段类型组成。
3.如权利要求1所述的方法,其中分析第一批中与所述特定字段相关联的第一值集合以确定与所述特定字段对应的一个或多个字段类型的第一推断集合包括:
在第一批的同一数据记录中检测与所述特定字段对应的至少两个值。
4.如权利要求1所述的方法,其中分析第一批中与所述特定字段相关联的第一值集合以确定与所述特定字段对应的一个或多个字段类型的第一推断集合包括:
识别与所述特定字段对应的多个字段类型;以及
通过应用机器学习模型来推断所述多个字段类型中的每个字段类型的类型。
5.如权利要求1所述的方法,其中分析第一批中与所述特定字段相关联的第一值集合以确定与所述特定字段对应的一个或多个字段类型的第一推断集合包括:
使用统计采样选择第一批的值;以及
将正则表达式分析应用于该值以确定该值的类型。
6.如权利要求1所述的方法,其中还包括在数据流中接收所述多个数据记录,其中与经由数据流接收附加数据记录并发地将所述多个数据记录分区为第一批和第二批。
7.如权利要求1所述的方法,还包括基于所述第一多个字段来推断用于第一批的第一模式,以及基于所述第二多个字段来推断用于第二批的第二模式。
8.如权利要求1所述的方法,还包括:
在分区操作之前,在单个数据流中接收多个数据记录,其中将所述多个数据记录中的特定记录分区为第二批是基于满足第一批的数据记录容量阈值。
9.如权利要求1所述的方法,其中所述多个数据记录是在单个数据流中接收的,其中所述第一多个字段与所述第二多个字段完全相同,并且其中与所述第一多个字段对应的第一类型集合和与所述第二多个字段对应的第二类型集合不完全相同。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于甲骨文国际公司,未经甲骨文国际公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110651377.3/1.html,转载请声明来源钻瓜专利网。
- 上一篇:用于钟表的指示器防校正系统
- 下一篇:发动机系统以及启动发动机的方法