[发明专利]用于结构化多字段文件布局的自动化解释有效
申请号: | 201680066594.3 | 申请日: | 2016-10-28 |
公开(公告)号: | CN108351898B | 公开(公告)日: | 2021-10-08 |
发明(设计)人: | M·伯特纳;W·D·柯林斯 | 申请(专利权)人: | 安客诚公司 |
主分类号: | G06F16/13 | 分类号: | G06F16/13;G06F16/16;G06F16/31;G06F16/383;G06F40/295 |
代理公司: | 深圳市百瑞专利商标事务所(普通合伙) 44240 | 代理人: | 金辉 |
地址: | 美国阿*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 用于 结构 多字 文件 布局 自动化 解释 | ||
1.一种用于从包括多个记录的数据文件确定文件布局的方法,每个记录包括多个字段,所述方法步骤包括:
a.在推理引擎中接收数据文件;
b.对数据文件执行初步分析,其中初步分析包括通过分析多个记录中的至少一个,确定数据文件是字段分隔文件还是固定宽度字段文件的步骤,其中对数据文件执行初步分析的步骤仅基于数据文件中的多个记录,而无需读取数据文件的源格式文件或从数据文件读取要转换的规则文件;
c.如果确定数据文件是字段分隔文件,则对数据文件执行分隔分析;
d.如果确定数据文件是固定宽度字段文件,则对数据文件执行固定宽度分析;
e.将列类型标识应用于数据文件,其中将列类型标识应用于字段文件的步骤包括以下步骤:将至少一个识别记录中原始数据模式的基本oracle应用于数据文件,其中原始数据模式包括特定类型的字符,并且所述至少一个基本oracle包括阿尔法oracle、字母数字oracle、空白oracle、数字oracle或数值oracle中的一个或多个;将至少一个识别记录中字段类型的常规oracle应用于数据文件,其中字段类型包括一组遵循已知模式的字符;和将至少一个识别记录中跨越多个字段的单一数据类型的元oracle应用于数据文件,其中所述至少一个元oracle包括完整地址oracle和全名oracle中的每一个,其中将至少一个基本oracle、至少一个常规oracle和至少一个元oracle应用于数据文件的步骤包括以下步骤:使用不同的oracle对数据文件中每个字段的预期数据类型做出多个潜在的易错决定,并且进一步包括以下步骤:结合多个潜在的易错决定的结果来就数据文件中每个字段的预期数据类型作出最佳选择,并且其中将列类型标识应用于字段文件的步骤包括分析数据文件中的多行记录以确定数据文件的整体列标识;以及
f.输出数据文件的最终列类型信息。
2.根据权利要求1所述的方法,其中所述至少一个基本oracle包括阿尔法oracle、字母数字oracle、空白oracle、数字oracle和数值oracle中的每一个。
3.根据权利要求1所述的方法,其中所述至少一个常规oracle包括地址链接oracle、消费者链接oracle、文档标识符oracle、企业名称oracle、城市oracle、国家oracle、国家oracle、日期oracle、域oracle、电子邮件oracle、名字oracle或性别oracle中的一个或多个。
4.根据权利要求3所述的方法,其中所述至少一个常规oracle包括地址链接oracle、消费者链接oracle、文档标识符oracle、企业名称oracle、城市oracle、国家oracle、国家oracle、日期oracle、域oracle、电子邮件oracle、名字oracle和性别oracle中的每一个。
5.根据权利要求1所述的方法,其中对文件执行分隔分析的步骤包括以下步骤:
a.计算非数字非字母字符的初始频率表;
b.使用来自一组可能的分隔符的试验分隔符对数据文件中每一行的列数进行计数;
c.通过字段和行的数量总结列计数;
d.筛选出低总结计数;
e.使用一个或多个基本oracle或字段oracle来排列字段计数;以及
f.输出最终的分隔决定。
6.根据权利要求1所述的方法,其中对文件执行固定宽度分析的步骤包括以下步骤:
a.在数据文件上创建空间直方图;
b.在数据文件上创建字符映射;
c.使用一个或多个空间直方图和字符映射将列提取映射到数据文件上;以及
d.输出最终的固定宽度决定。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于安客诚公司,未经安客诚公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201680066594.3/1.html,转载请声明来源钻瓜专利网。