[发明专利]文档识别装置和方法有效
申请号: | 200810174109.1 | 申请日: | 2008-11-07 |
公开(公告)号: | CN101430758A | 公开(公告)日: | 2009-05-13 |
发明(设计)人: | 武部浩明;小泽宪秋;皆川明洋;藤井勇作;堀田悦伸;田中宏;藤本克仁;平井淳一;高桥清治 | 申请(专利权)人: | 富士通株式会社 |
主分类号: | G06K9/00 | 分类号: | G06K9/00;G06K9/03;G06F17/30 |
代理公司: | 北京三友知识产权代理有限公司 | 代理人: | 李 辉;吕俊刚 |
地址: | 日本神奈*** | 国省代码: | 日本;JP |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文档 识别 装置 方法 | ||
1.一种文档识别方法,该文档识别方法适于根据存储在逻辑结构模 型存储部中的逻辑结构来识别输入文档的逻辑结构,所述逻辑结构模型 存储部存储逻辑结构,该逻辑结构指示多种文档中的逻辑元素并指示所 述逻辑元素之间的关系,所述文档识别方法包括以下步骤:
(1)将输入文档上的字符串以及所述输入文档上的所述字符串与存 储在所述逻辑结构模型存储部中的逻辑元素之间的关系的关联,作为文 档数据而存储在存储器中;
(2)向显示单元输出所述输入文档以及存储在所述存储器中的所述 文档数据;
(3)当用户选择显示在所述显示单元上的所述文档数据的字符串 时,从所述存储器中指定与所选择的字符串有逻辑关系的字符串;
(4)在所述显示单元上显示所指定的字符串;以及
(5)在所述显示单元上显示所述输入文档的至少包括所指定的字符 串的区域,
其中所述步骤(1)包括:
对所述输入文档进行识别,从所述输入文档中提取与存储在所述逻 辑结构模型存储部中的所述逻辑元素相符的字符串;
将所提取的字符串存储在所述存储器中;
提取所述输入文档上的满足存储在所述逻辑结构模型存储部中的所 述逻辑元素之间的所述关系的字符串组合;
将所述输入文档上的所述字符串与存储在所述逻辑结构模型存储部 中的所述逻辑元素之间的所述关系的关联,存储在所述存储器中。
2.根据权利要求1所述的方法,其中,所述步骤(1)还包括:
提取所述输入文档上的要作为存储在所述逻辑结构模型存储部中的 所述逻辑元素的候选的字符串,并将所提取的要作为所述逻辑元素的候 选的字符串存储在所述存储器中。
3.根据权利要求2所述的方法,其中,所述步骤(3)还包括:
当所述用户选择显示在所述显示单元上的所述文档数据的字符串 时,基于与所述选择的字符串相关联的所述逻辑元素的候选从所述存储 器中指定要作为所述选择的字符串的候选的其它字符串;以及
在所述显示单元上与所述用户所选择的所述字符串相关联地显示要 作为候选的所述指定的其它字符串。
4.根据权利要求3所述的方法,其中,所述步骤(1)还包括:
提取所述输入文档上的要作为存储在所述逻辑结构模型存储部中的 所述逻辑元素的候选的字符串的等级,并将所述等级与所提取的要作为 所述逻辑元素的候选的字符串相关联地存储在所述存储器中。
5.根据权利要求4所述的方法,其中,所述步骤(3)还包括:
在所述步骤(3)中,当用户选择显示在所述显示单元上的所述文档 数据的字符串时,基于与所述选择的字符串相关联的所述逻辑元素的候 选从所述存储器中指定要作为所述选择字符串的候选的其它字符串以及 要作为所述选择字符串的候选的所述其它字符串的等级;以及
在所述显示单元上与所述用户所选择的所述字符串相关联地显示具 有要作为候选的等级的所指定的其它字符串。
6.根据权利要求1所述的方法,其中:
在所述步骤(3)中,当所述用户对显示在所述显示单元上的所述文 档数据的字符串进行校正时,从所述存储器中指定与所述校正的字符串 具有所述逻辑元素之间的所述关系的其它字符串。
7.一种文档识别装置,该文档识别装置包括逻辑结构模型存储部, 该逻辑结构模型存储部存储逻辑结构,该逻辑结构指示多种文档中的逻 辑元素并指示所述逻辑元素之间的关系,所述文档识别装置根据存储在 所述逻辑结构模型存储部中的所述逻辑结构来识别被输入进行识别的文 档的逻辑结构,所述文档识别装置包括:
第一装置,所述第一装置将输入文档上的字符串以及所述输入文档 上的所述字符串与存储在所述逻辑结构模型存储部中的逻辑元素之间的 关系的关联,作为文档数据而存储在存储器中;
第二装置,所述第二装置向显示单元输出所述输入文档以及存储在 所述存储器中的所述文档数据;
第三装置,所述第三装置当用户选择显示在所述显示单元上的所述 文档数据的字符串时,从所述存储器中指定与所选择的字符串具有逻辑 关系的字符串;
第四装置,所述第四装置在所述显示单元上重新显示文档数据,所 述文档数据中包括所指定的字符串;以及
第五装置,所述第五装置在所述显示单元上显示所述输入文档的至 少包括所指定的字符串的区域,
其中所述第一装置包括:
对所述输入文档进行识别,从所述输入文档中提取与存储在所述逻 辑结构模型存储部中的所述逻辑元素相符的字符串的单元;
将所提取的字符串存储在所述存储器中的单元;
提取所述输入文档上的满足存储在所述逻辑结构模型存储部中的所 述逻辑元素之间的所述关系的字符串组合的单元;
将所述输入文档上的所述字符串与存储在所述逻辑结构模型存储部 中的所述逻辑元素之间的所述关系的关联,存储在所述存储器中的单元。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于富士通株式会社,未经富士通株式会社许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200810174109.1/1.html,转载请声明来源钻瓜专利网。
- 上一篇:入出室管理系统
- 下一篇:利用单词相关度的本体自动生成