[发明专利]印刷汉字识别装置的印刷汉字识别方法无效
申请号: | 85100085.1 | 申请日: | 1985-04-01 |
公开(公告)号: | CN1016384B | 公开(公告)日: | 1992-04-22 |
发明(设计)人: | 张炘中;夏莹;完强;孙承鉴;赵雁南 | 申请(专利权)人: | 清华大学 |
主分类号: | G06K9/80 | 分类号: | G06K9/80 |
代理公司: | 清华大学专利事务所 | 代理人: | 王久春 |
地址: | 北京市海*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 印刷 汉字 识别 装置 方法 | ||
本发明属于模式识别和计算机人工智能的技术领域。
汉字识别的研究始于60年代,日本1980年进行了可识别2000个单一印刷体日本汉字,识别装置采用了专用大型机。日本三菱公司1981年提出从文字特征点出发抽取笔划特征进行识别的方法。日本许文星等1982年提出不经细化,直接从二值化汉字中抽取笔划的方法,得出各笔划起点、终点,连接信息以及抽取的顺序信息,他从手写印刷体实验起逐步推广到其它体。国内河北大学郭宝兰1982年提出用“包含配选法”对单体印刷汉字进行大分类。
本发明目的是打破了识别汉字常用的统计法和结构法,提出了一种基于汉字特殊点识别印刷汉字的方法。随着汉字信息处理技术的进展,汉字人工输入和自动处理、汉字输出之间的矛盾日益尖锐。汉字输入问题已成为整个处理系统效率的“瓶颈”,急迫要求汉字能够自动高速输入计算机。基于模式识别和人工智能原理的汉字识别技术能够很好地解决这个矛盾。
印刷汉字识别可以使不希望许多人介入的保密材料自动输入计算机。为智能计算机提供一种识别印刷汉字的方法。
一个印刷汉字识别装置如图1所示。
扫描输入设计采用摄象机(块式输入)或传真机(行式输入),或采用RICOH的平板式扫描仪IS-30,印在纸上的汉字经扫描输入设备后变成有灰度值的模拟电信号,经行字切分,把单个汉字从整个版面中切分出来,经二值化,使单个汉字变成数字化点阵信息,再经平滑、尺寸大小变换、笔划粗细变换,规范化为一个有一定大小、一定笔划粗细的二值化汉字点阵。予处理部分一般固化在ROM中,用一定的识别方法,对规范化后的二值化点阵进行处理,就可以识别这个字。计算机自动给出该字的国际交换码。
本发明提出的能在微处理机上实现的印刷汉字识别装置,所用的新识别方法是,先存储好汉字特殊点的知识,然后自上而下地不需抽取特征直接去识别。
①汉字特殊点:印刷体汉字是直线型文字,由此可取端点、折点、歧点和交点作为汉字的特殊点。端点是笔划的起点或终点且不与别的笔划相接;折点是笔划方向显著变化(≥45°)的点;歧点是三叉点,即该点的笔划方向有三个分支;交点是四叉点且有两对相等的对顶角。如图2所示。
汉字特殊点体现了汉字内在结构规律,又是汉字二值图形中的黑点,这样采用汉字特殊点作为特征,把结构分析和模块匹配两者结合于一身。
②汉字特殊点是汉字结构信息集中所在,印刷体汉字是直线型文字。一个二值化汉字的信息,绝大部分集中在汉字骨架上(如图3),而骨架信息又大多集中在特殊点上。特殊点一旦确定,汉字笔划以及结构形状大致确定。实际上端点、折点可以决定一个汉字的笔划位置和形状,而交点、歧点决定了不同笔划间的相互连接关系。一个汉字的特殊点大约是该文字二值化点阵数的百分之一,这就是说,用一个汉字的特殊点这个特征来表示一个汉字,虽然存贮量减少了100倍,但信息量和原汉字差不多,所以用特殊点来识别汉字,可大大简化方案,减少存贮量,提高识别速度。
③采用特殊点作特征来识别汉字,也有两种识别方法,一种是自下而上识别,先抽取未知汉字特殊点,再对照字典,判出是哪一个汉字。另一种是自上而下识别,事先在字典中存贮全部待识汉字特殊点的知识(即特征),识别时取字典中的字特征和未知汉字匹配。本发明是用自上而下的识别法,可以免除识别时抽取特征花费的时间和困难,提高识别速度。未知汉字经粗分类后,得到候选集,用存贮在字典中该候选集中全部汉字特征点逐一和未知汉字匹配判别,用“与”运算,找到最匹配的字,为识别结果。
④采用自上而下的识别方法,予处理时只要粗化而不要细化。细化予处理花的时间长(大约是整个识别时间的一半)而且要产生结构畸变,(如一个交点变成两个歧点,转折处出现分叉笔划,使短笔划消失等),本发明不用细化,只采用粗化,不仅节省予处理时间,更主要的是避免了细化带来的令人讨厌的字形、结构变化。
⑤本发明的字典中汉字特殊点坐标排列原则上根据汉字使用频度,就是使用频度高的字排在前面,使用频度低的字排在后面,这样一方面提高平均识别速度,另一方面也可以对频度高的字提高识别率。
⑥为了保证字典由前向后的排列和汉字使用频度由高到低的顺序一致,又要避免这样排序必然带来的降低识别率的缺点(因未知笔划多、长的字匹配某组特殊点的概率比笔划少短的字要大,所以,为了提高识别率,字典中必须把笔划少且短的字排在后面,而这些字往往是使用频度高的字)。本发明采用了汉字背景点(空白处的中心点)的匹配。即笔划少的字的特殊点还包含背景点,这些背景点和未知汉字图形匹配不上,才是正确的匹配。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于清华大学,未经清华大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/85100085.1/2.html,转载请声明来源钻瓜专利网。
- 上一篇:用于填充塔的液体分配器
- 下一篇:提高压气机失速裕度和效率的方法