[其他]图象了解系统无效
申请号: | 85106850 | 申请日: | 1985-09-11 |
公开(公告)号: | CN85106850A | 公开(公告)日: | 1987-08-05 |
发明(设计)人: | 中野康明;藤泽浩道;东野纯一;江尼正员 | 申请(专利权)人: | 株式会社日立制作所 |
主分类号: | G06K9/36 | 分类号: | G06K9/36 |
代理公司: | 中国国际贸易促进委员会专利代理部 | 代理人: | 余刚 |
地址: | 日本*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 图象 了解 系统 | ||
一般地说,本发明涉及一种文件图象处理系统,更具体地说,是涉及了一种适于作电子文件图象存储器的输入单元的文件图象处理系统。
通常的一些电子文件存储器只是把文件的每一页作为一个图象来存储,而用于信息检索的辅助信息必须用代码输入装置(比如键盘)从外部单独地输入。然而,为了使文件输入工作自动化,最好通过自动地读出文件中所描述的题目,作者名字等来生成辅助信息。为了进一步改进信息检索,需要实现图表标题和章节标题的自动输入,或者通过正文本身的识别自动抽取关键词。同时要求把目标文件之图象划分成各部分,比如标题、作者、摘要、正文、数字、插图等,以减少存储空间并增加检索的自由度。
为了解决上述问题,目前已研究出了一个能够了解文件内容并根据了解的结果处理文件的系统,由尤杰·诺古奇(Yoji Noguchi)和朱尼奇·托亚特(Junichi Toyoter)在“报刊文章剪辑系统的基本研究”中所公开的就是这种系统的一例(日本信息处理协会第23次全国大会文件摘需6C-1)。然而,由于这个文件了解系统是针对报纸的剪辑而研制的,所以还不清楚是否可以把它应用到具有任意格式的文件中。另外,它只是把字符部分分割,而分割和识别相结合的方法却没有公开。
本发明的目的是提供一种图象了解系统,它可处理普遍的文件图象,根据它们的结构把它们分割,使之可能在任何需要的时候识别字符部分。
为了完成上述目的,本发明运用了一种描述文件图象之结构的语法和对以这种语法表示的语句(文件的结构)进行分析,以识别输入未知的图象的结构。该语法把图象描述为一些子结构及其它们之间的相对关系。在分析过程中,识别了子结构和它们的相对关系以后,做搜索,看未知的输入图象中是否存在这些子结构和相对关系,如果存在,再进一步分解这些子结构的内部,以进行分析;如果不存在,则搜索其它的可能性。从这样一种搜索的结果中我们可以了解输入未知图象的结构。
下面是附图的简要描述
图1表示文件的一例;
图2表示本发明的一个实施方案;
图3、4、5和6是流程图,用于说明图2中所示控制单元的处理过程;
图7是表示一个文件例子的参考图;
图8、9、10、11、12和13是用于解释本发明的第四实施方案工作原理的解释图;
图14和图15是流程图,用于解释本发明的第四实施方案中控制单元102所进行的处理;
图16和图17是解释图,用于解释图15中所示的处理内容。
在描述这些实施方案以前,让我们首先解释一下本发明实施方案的语法分析方法。虽然下面是以技术论文为例来描述,但因为语法格式有一定程度的不同,所以通过改变语法的某些部分,也可以将本发明应用到其它文件中去。因此,本发明不受技术论文的具体限制。
图1示例了一页具有预定格式的技术论文,下面将说明一个表示文件结构的语法例子(以后称为“文件语法”)。
(原文行)
1.<文件> ∷=|<技术论文>|<平装本小
说>|~|<专利>
2.<技术论文> ∷=<题目页>
3.<技术论文> ∷=<技术论文>〔+<接续页>:〕
4.<题目页> ∷=|<UDC>η<题目内容>η
<作者摘要>η<正文>η<题目页
分隔符>
5.<接续页> ∷=<标题>η<正文>η<页分隔
符>
6.<UDC> ∷=《UDC》<周期数字>〔
《CL》<周期数字>〕
7.<标题> ∷=<日文题目><卷数><数
字>
8.<卷数> ∷=《VOL》<数字>《NO》
<数字>
9.<题目内容> ∷=<日文题目>η<英文题目>
10.<日文题目> ∷=<日文正文行区>
11.<英文题目> ∷=<英文正文行区>
12.<作者摘要> ∷=<摘要><作者组>
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于株式会社日立制作所,未经株式会社日立制作所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/85106850/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种可折叠主动型旋翼直升飞行器
- 下一篇:浸提法