[发明专利]用于分析并确定文档中信息的相关性的装置和方法有效

专利信息
申请号: 200810004819.X 申请日: 2008-02-02
公开(公告)号: CN101236609A 公开(公告)日: 2008-08-06
发明(设计)人: 武部浩明;藤本克仁 申请(专利权)人: 富士通株式会社
主分类号: G06K9/72 分类号: G06K9/72
代理公司: 北京三友知识产权代理有限公司 代理人: 孙海龙
地址: 日本神奈*** 国省代码: 日本;JP
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 用于 分析 确定 文档 信息 相关性 装置 方法
【说明书】:

技术领域

本发明涉及逻辑结构识别程序、逻辑结构识别方法、以及逻辑结构识别装置。

背景技术

表格经常被转换成电子数据。因而,存在将表格有效地转换成电子数据的需求。例如,可以通过从表格中自动提取关键字和数据,并同时识别表格图像的逻辑结构来实现将表格有效地转换成电子数据。

作为现有技术的示例,有日本未审查专利申请公开2006-300325、2006-209065、5-159101、以及2006-134106。

发明内容

根据实施方式的一个方面,提供了一种用于分析并确定指定表格中包含的信息的相关性的装置,在所述表格中包含多个模块,所述多个模块中的至少一个模块包含表示表头(header)的数据,所述多个模块中的其余模块包含与表头信息关联的数据,该装置包括:用于存储多个模板的存储器,所述模板具有多个节点、分别与所述多个节点关联的字符数据以及所述多个节点之间的相对位置信息;和用于根据处理来分析并确定所述信息的相关性的处理器,所述处理包括以下步骤:获取所述指定表格中的所述多个模块中包含的数据;确定所述多个模块的相对位置以生成相对位置信息;与所述多个模板的所述字符数据和所述多个节点的相对位置信息相比较地,分析从所述多个模块获取的所述数据和所述多个模块的所述相对位置信息;以及确定所述多个模块中包含的所述数据的相关性。

附图说明

图1示出了本发明的概要;

图2示出了逻辑结构识别装置的硬件结构的实施例;

图3是示出了逻辑结构识别装置的功能的框图;

图4是用于说明层级结构的例示图;

图5A、5B以及5C示出了逻辑结构模板的实施例;

图6示出了可能模板列表;

图7示出了已存储逻辑结构模板的数据结构;

图8示出了层级关系;

图9示出了并列关系;

图10示出了字关系;

图11是示出处理器的功能的框图;

图12例示了假设字符区生成单元的功能;

图13示意性示出了字符识别单元生成的文档布局层级的数据结构;

图14是逻辑结构识别处理的流程图;

图15是示出了逻辑结构识别处理单元的功能的框图;

图16A和16B是用于说明完整制图处理的例示图;

图17A和17B是已经经受完整制图处理的逻辑结构模板的例示图;

图18是列表处理的流程图;

图19A和19B是用于说明列表处理的具体实施例的例示图;

图20A和20B是用于说明列表处理的具体实施例的例示图;

图21示出了生成的图形;以及

图22示出了提取的集团(clique)。

具体实施方式

下面参照附图对本发明的实施方式进行说明。

将对应用本发明的实施方式之前的技术进行概要说明。例如可以通过下述处理来实现通过对表格图像的逻辑结构进行识别而从表格中自动提取关键字和数据。在第一处理中,预先制备逻辑定义字段,该逻辑定义字段表示由表头字符串的候选和字符串的候选数据的规则表达的对形成的列表。在第二处理中,将从表格图像的字符识别结果中获取的字符信息与逻辑定义字段比较。在第三处理中,提取关键字。

还存在另一方法,该方法利用逻辑结构的层级和布局上的接近度之间的关系,根据概率传播方法来定义表头和数据。利用这种方法,甚至可以识别具有深层级结构的表的表格的逻辑结构。

另外,存在许多用于识别一般文档的逻辑结构的方法。在一种这样的方法中,使通过文档图像划分装置获取的诸如字符块、字符行、图形等的具有属性的区域与其中节点表示文档组件并且链接表示位置关系的图像结构模型相匹配。在这种方法中,确定哪一个结构模型匹配关心的文档图像的结构。在这种方法中,为每一个区域设置一个与逻辑结构有关的标签。

还可使用另一方法,在该另一种方法中,将识别结果与概念词典和图解信息(schema information)进行比较,它确定识别结果是项目(item)还是数据,并且执行项目与数据之间的关联。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于富士通株式会社,未经富士通株式会社许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/200810004819.X/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top