[发明专利]用于结构化多字段文件布局的自动化解释有效
申请号: | 201680066594.3 | 申请日: | 2016-10-28 |
公开(公告)号: | CN108351898B | 公开(公告)日: | 2021-10-08 |
发明(设计)人: | M·伯特纳;W·D·柯林斯 | 申请(专利权)人: | 安客诚公司 |
主分类号: | G06F16/13 | 分类号: | G06F16/13;G06F16/16;G06F16/31;G06F16/383;G06F40/295 |
代理公司: | 深圳市百瑞专利商标事务所(普通合伙) 44240 | 代理人: | 金辉 |
地址: | 美国阿*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 用于 结构 多字 文件 布局 自动化 解释 | ||
一种用于解释多字段文件的字段布局的完全自动化的系统,使用由三个子系统的交互构建的丰富的上下文框架,以提供如每个字段的位置和数据类型所定义的对结构化数据文件的上下文的整体视图。每个子系统的作用是(1)确定文件的元数据和不同数据字段的位置;(2)使用易错的oracle(即没有oracle必须能够识别每个记录的类型),以在若干等级上提供对这些字段的一套解释;以及(3)即使在数据不明确的情况下,也不需要正确解释每个记录就能准确确定每个字段的位置和特定数据类型。该系统可以在分隔和固定宽度的结构文件上运作。
技术领域
本发明涉及一种用于识别数据文件中每个字段(即,布局)的特定数据类型的自动化方法,该数据文件可以表示为表格,其中每行表示单个记录并且每列表示特定属性/名称字段,例如通常用于业务数据服务和其他商业目的。
背景技术
在本背景部分中提到的参考文献不认为是关于本发明的现有技术。
今天的业务必须消耗大量的数据,其中包括例如现有的客户数据、库存数据、新客户和产品的预期数据以及作出关键业务决策所需的其他相关业务数据。这些数据可能由多个文件表示,其中一些文件可能包含数百万条记录,每个记录包含数百个字段。通常,这些文件来源于客户或数据汇总公司,不包含布局或字段格式信息。固定宽度文件(即每个记录的每个字段具有相同数量的字符位置/字节的那些文件)通常没有布局。这些数据文件需要一些预处理步骤,以为布局提供高度准确的描述。手动执行此步骤容易出错并且代价高昂。
包含数据(例如用于业务数据服务的数据)的文件通常组织为一系列记录,每个记录包含多个字段。每个字段都与特定的属性相关联。例如,在包含包括消费者数据的记录的文件中,每个记录可以属于单个消费者,并且包括在每个记录中的字段可以包括例如名字、姓氏、街道地址、城市、州、邮政编码、电话号码、人口统计数据(例如年龄、性别和收入)以及之前的购买活动。通常,数据可以表示为表格,表格的每行表示记录,每列表示字段。当要摄取(即处理)这种类型的文件时,例如为了用附加数据优化文件,执行数据“卫生”(删除重复数据和标准化)、数据分析或其他商业活动,必须准确识别每个文件记录中每个字段中的数据类型。这是由于整个行业没有这种文件记录的标准格式。传统上,识别每个记录字段中的数据类型(即,每列中的数据类型)的这一步骤已经被手动执行。定期处理这类数据的人只需查看计算机屏幕上显示的每列数据,并根据他们所看到的内容为列(字段)分配标签。取决于人的准确性,这种方法很容易出错,非常耗时且成本高昂。这些错误源于大量待识别字段的手动排序(因为如上所述,记录可能包含数百个字段),以及在许多情况下,每个字段的识别仅基于一个或极少数记录。对于人类来说,查看可能包含数百万个单独记录(行)的文件中的所有记录是不实际的。
此外,如果文件中提供了“布局”(例如,标题行),则人类审阅者强烈倾向于依赖该信息,而不在文件内对数据本身进行验证。在许多情况下,提供的布局可能不准确或不完整。例如,如果数据布局来自文件的早期版本或包含不正确的信息,则可能发生这种情况。即使在存在正确布局的情况下,对于每个字段数据类型也没有标准化的命名约定,因此必须分析布局描述本身以确定其含义。
在没有提供布局的情况下,无法仅通过仅查看该特定字段中的信息就准确地识别某些字段。例如,包含“y”和“n”字符的字段可能表示问题的“是”或“否”答案,但没有额外的上下文,就不可能确定问题是什么,并且因此答案意味着什么。
随着业务继续消耗更多表格数据并且每个记录中的记录数量和字段数量不断增长,每个重要字段的数据类型的人工识别和验证总体数据占用不断增加。各种具体问题可能导致此过程效率低下。这样的数据文件通常是分隔的,其中相邻的字段值例如是通过共同的分隔符字符分开的。下表提供了使用逗号分隔符的此类文件的简单示例。
1,John,Doe,123 Main St.,Little Rock,AR,72207
2,Mary,Smith,456 1st Street,Phoenix,AZ,85001
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于安客诚公司,未经安客诚公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201680066594.3/2.html,转载请声明来源钻瓜专利网。