[发明专利]通过自适应概率加权提高字符识别准确性的系统和方法无效
申请号: | 94104626.5 | 申请日: | 1994-04-23 |
公开(公告)号: | CN1052319C | 公开(公告)日: | 2000-05-10 |
发明(设计)人: | 马丁·P·T·布莱德利 | 申请(专利权)人: | 国际商业机器公司 |
主分类号: | G06K9/00 | 分类号: | G06K9/00;G06K9/46 |
代理公司: | 中国国际贸易促进委员会专利商标事务所 | 代理人: | 范本国 |
地址: | 美国*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 通过 自适应 概率 加权 提高 字符 识别 准确性 系统 方法 | ||
本发明一般涉及数据处理系统并且特别涉及到文本图象的字符识别。
本专利申请与T.S.Betts等于1992年4月15日提出的、序号为07/870,129、名称为“对文件格式扫描图象的字符识别错误进行顺序修改的数据处理系统及方法”的共同未决美国专利申请相关,Betts等的申请已转让给IBM公司,在这里,该申请作为参考加以引用。
本专利申请还与Betts等于1992年4月17日提出的、序号为07/870,507、名称为“对文件格式扫描图象的字符识别过程和编码数据修改过程进行规范选择的数据处理系统和方法”的共同未决美国专利申请相关,Betts等的申请已转给IBM公司,在这里该申请作为参考加以引用。
本专利申请还与R.G.Casey等于1989年2月2日提出的、名称为“打印格式数据自动析取的计算机实现方法”的共同未决美国专利申请相关,Casey等的申请已转让给IBM公司,在这里只作为参考加以引用。
在数据处理领域中,通过昂贵的花销已开发出文本图象字符识别技术。有许多商业上可得到的字符识别计算机程序和设备,这些程序和设备接收一个字母数字文本图象并将其转换成一串字母数字编码数据字符。每个商业可得到的字符识别产品的特性通常表现在其生产厂家所具有的某方面的更为合适的优势。某些字符识别程序在将机器击打打印图象转换成编码数据字符串方面非常出色,但是在转换点阵方面却不行。其他的字符识别程序设计成可转换手写字符,这些手写字符或者是限制在长方形方框内的手写字符或者是非限制性的手写字符,这些特殊的字符识别程序不能用于其他字符形式类型。将字符格式的种类诸如机器击打打印类、点阵打印类、限制性手写类或非限制性手写类及相似种类看作是字符格式的变化。文本的另一个变化种类是域类型种类,对于该种类,某些字符识别程序的识别比其他程序更为准确。例如域类型可以全部是数字域,可以全部是大写字母或小写字母的字母域,也可是某些大写字母和某些小写字母的混合字母域以及相似域类型。某些字符识别程序在准确地转换数字域上要比准确地转换字母字符域或混合字符域强得多。字符识别程序在字符格式及域类型变化很大的范围上只能进行有限识别的原因是:字符识别程序一般基于单个或有限个字符识别算法,如模式识别、神经网络、字符特征或其他字符识别算法。
当分析多种文本格式时,这种多字符格式及域类型的限制就会产生问题,而对于字符格式及域类型,现有字符识别程序是有用的。现在需要一种能够克服单个字符识别产品弱点的方法,以便提高系统的整个性能,该系统必须能够分析非常多的字符格式及域类型。
所以本发明的目的就是提供一种改进了的用来准确地对具有很多种字符格式或域类型的文本进行字符识别的方法。
本发明的另一个目的是克服单个字符识别程序产品的弱点以便提高系统的性能,该系统必须能够对来自很多种字符格式及域类型的字符进行识别。
通过自适应概率加权来提高字符识别准确性的系统和方法实现了这些目的、特性和优势。公开了一种数据处理系统和方法,该系统包括文本图象输入设备如扫描器、格式识别程序、域析取程序及多个字符识别程序。本发明涉及到选择多个字符识别程序中的哪一个程序来识别文件格式图象中的域中字符的系统和方法。
每个字符识别程序在识别字符格式诸如机器击打打印、点阵打印、限制性手写体、非限制性手写体和相似的字符格式方面具有某种优点,同时也有其他缺点。对于各个字符识别程序来说,这些优点和缺点可通过输入到数据处理系统内的字符格式置信度表来表示。
相似地,每个字符识别程序在识别诸如数字型、字母型(全部大写或全部小写或大小写混合)、字母及数字混合型和相似的类型方面有一定的优点,同时也有其他缺点。对于众多字符识别程序中的每个程序来说,这些优点和缺点可通过输入到数据处理系统中的域类型置信度表来表示。
由于对一个特定字符识别程序的优点和缺点的原有估计可能不准确,因此在这里,本公开发明通过对多个字符识别程序中的每一个使用自适应概率加权因子来提供对这些优点的估计的修改方法。当将多个字符识别程序应用到字符格式和域类型的特定组合中时,自适应概率加权因子就可将最好的字符识别程序更准确地选择出来。由于这种组合可能会从格式中的一个域变化到下一个域,因此当分析格式中的连续域时,本发明提供了不同的自适应概率加权因子的快速应用。
每个字符识别程序在数据处理系统中生成第一猜测字符和第一置信值以及第二猜测字符和第二置信值。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国际商业机器公司,未经国际商业机器公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/94104626.5/2.html,转载请声明来源钻瓜专利网。
- 上一篇:用于变曲率表面的模板
- 下一篇:玻璃门安装配件