[发明专利]逻辑结构分析装置、方法和计算机产品有效
申请号: | 200810145884.4 | 申请日: | 2008-08-18 |
公开(公告)号: | CN101425131A | 公开(公告)日: | 2009-05-06 |
发明(设计)人: | 皆川明洋;堀田悦伸;藤井勇作;藤本克仁 | 申请(专利权)人: | 富士通株式会社 |
主分类号: | G06K9/00 | 分类号: | G06K9/00;G06K9/72 |
代理公司: | 北京东方亿思知识产权代理有限责任公司 | 代理人: | 赵淑萍;南 霆 |
地址: | 日本神*** | 国省代码: | 日本;JP |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 逻辑 结构 分析 装置 方法 计算机 产品 | ||
技术领域
本发明涉及包括纸质表单(form)和电子表单在内的表单上的字符串 之间的逻辑结构(关系)分析。
背景技术
传统上,为了从纸质表单中提取数据,使用了结构化表单,即具有固 定布局(layout))的表单。在从结构化表单中提取数据时,具有某种含 义的字符(character)或字符串(character string)存在于某些区域中,并 且定义这种字符、字符串和位置的用于布局的字段定义被生成。通过分析 写在有关区域中的这些字符和/或字符串来提取数据。但是,如果针对仅为 几个拷贝处理的表单进行创建的话,那么创建对布局的字段定义的成本变 得巨大;因此为这种表单手工输入数据,这转而需要巨大的数据输入成 本。
近来,即使在表格(table)中改变了标题(heading)的顺序,也可以 识别数据位置,并且针对在表格被创建时同一列中的标题被颠倒的情况, 在日本专利申请早期公布No.2005-275830中公开了一种数据提取方法。
但是,传统上,对于非结构化布局的逻辑结构分析或者是在标题之间 的关系是分级的(例如主标题和副标题之间的关系或者基于构成层级的副 标题之间的等同关系)时提取数据的模式,或者是可应用到具有定义标题 群组内的非唯一顺序的某些规则的线条和单元(cell)的表单的逻辑结构 分析模式。
因此,传统的处理不能应用到下述表单是成问题的:(1)通过多个 标题从中获得数据的表单,但是不能判定该数据是否形成表格,(2)多 次使用同一标题的表单,每个标题分别对应于一段数据,或者(3)具有 这样的结构的表单:标题和相应数据不相邻,例如(标题1)-(标题2)- (与标题1相对应的数据)-(与标题2相对应的数据)。
例如,日本专利申请早期公布No.2005-275830中公开的技术没有解 决上述问题(1)和(3),因为是在使用表格的前提下使用单元关系的。 另外,如果不解决问题(2),那么当多个数据项(item)对应于同一标题 字符串时,关系仍然是含糊的,从而导致逻辑结构分析的准确度降低。
发明内容
本发明的一个目的是至少解决传统技术中的上述问题。
根据本发明的一个方面的一种计算机可读记录介质中存储有逻辑结构 分析计算机程序,该逻辑结构分析计算机程序使得计算机执行:从包括一 个或多个标题和一个或多个数据项的表单上的字符串中提取单位单词候 选;将每个所述单词候选分类成针对所述标题的标题候选的群组和针对所 述数据项的数据候选的群组,以基于所述单词候选在所述表单上的位置, 生成第一候选集合,每个所述第一候选集合包括所述标题候选中的一个标 题候选和所述数据候选中可由所包括的标题候选所标识的一个数据候选; 组合所述第一候选集合,以生成第二候选集合,使得每一个包括多个不同 的标题候选和所述数据候选中的一个数据候选;从所述第二候选集合中, 针对每个所述数据项,去除包括所述数据项中的一数据项和标识该数据项 的标题的已确定集合,该去除是基于每个所述第二候选集合中包括的标题 候选和数据单词候选在所述表单上的位置的;以及输出所述已确定集合。
根据本发明的另一方面的一种逻辑结构分析装置包括:提取部件,该 提取部件从包括一个或多个标题和一个或多个数据项的表单上的字符串中 提取单词候选;第一生成部件,该第一生成部件将每个所述单词候选分类 成针对所述标题的标题候选的群组和针对所述数据项的数据候选的群组, 以基于所述单词候选在所述表单上的位置,生成第一候选集合,每个所述 第一候选集合包括所述标题候选中的一个标题候选和所述数据候选中可由 所包括的标题候选所标识的一个数据候选;第二生成部件,该第二生成部 件组合所述第一候选集合,以生成第二候选集合,使得每一个包括多个不 同的标题候选和所述数据候选中的一个数据候选;去除部件,该去除部件 针对每个所述数据项,基于每个所述第二候选集合中包括的标题候选和数 据单词候选在所述表单上的位置,从所述第二候选集合中去除包括所述数 据项中的一数据项和标识该数据项的标题的已确定集合;以及输出部件, 该输出部件输出所述已确定集合。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于富士通株式会社,未经富士通株式会社许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200810145884.4/2.html,转载请声明来源钻瓜专利网。
- 上一篇:车辆运用计划编制装置以及方法
- 下一篇:手指静脉认证装置