[发明专利]基于正则表达式的文字后处理方法和装置有效
申请号: | 201110037584.6 | 申请日: | 2011-02-14 |
公开(公告)号: | CN102637180A | 公开(公告)日: | 2012-08-15 |
发明(设计)人: | 王晓健 | 申请(专利权)人: | 汉王科技股份有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06K9/20 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 100193 北京*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 正则 表达式 文字 处理 方法 装置 | ||
技术领域
本发明属于文字识别领域,尤其涉及一种基于正则表达式的文字后处理方法和装置。
背景技术
文字后处理是指在得到识别结果候选项后,根据预设的后处理准则,筛选出最符合准则要求的识别结果字符串的过程。在以往的后处理方法中,后处理准则的设置和相应的准则匹配方法大多是根据实际需求设计的。例如,基于光学字符识别技术(OCR,Optical Character Recognition)的文字后处理方法,其实质就是将文字图像转化为文字识别结果后,若文字内容具有某种特定语义,则可运用后处理准则来校正识别结果:若文字为身份证号码,则后处理可将识别结果校正为18位数字;若文字内容为性别,则识别结果只能为男女,其他结果均为错误;类似地,若文字为其他类型的内容,则需要根据实际的需求再进行设计。因此,目前的文字后处理方法的复用性和可扩展性较差,不能灵活推广到新的需求中。
正则表达式,以其具有较强的描述能力,扩展性强等特点,被广泛的用在文本编辑器或其他类似的文字处理工具中,通常被用来检索和/或替换那些符合某个模式的文本内容,其匹配准则属于完全匹配。若将其运用到文字后处理中,当候选字符中没有完全匹配的字符时,就无法得出识别结果。
另外,目前的文字后处理方法,都没能很好的解决错误的文字切分引起的文字识别结果首尾字符缺失的问题。
发明内容
针对上述问题,本发明提出一种通用性和扩展性较强的,且具有较强的表述能力的基于正则表达式的文字后处理方法和装置。
为了达到上述目的,本发明所述基于正则表达式的文字后处理方法,包括以下步骤:
依据后处理准则语法设置当前识别区域的后处理准则表达式;
解析该后处理准则表达式,得出树状数据结构;
根据得出的树状数据结构匹配识别结果;
将匹配值最高的识别结果作为后处理结果。
其中,所述后处理准则语法,用于描述后处理准则,其包括:正则表达式语法元素以及用于修饰有候选答案的识别区域的修饰符,其中,
所述正则表达式语法元素包括:普通字符、字符集合、匹配次数限定符、分组表达式、选择表达式、转义字符和修饰符;所述普通字符包括:字母、数字、汉字、下划线,以及没有被定义特殊意义的标点符号;所述匹配次数限定符包括:不定次数限定符和固定次数限定符。
进一步地,解析该后处理准则表达式,得出树状数据结构,包括:
对后处理准则表达式中的普通字符和字符集合进行解析,分别将其解析为基本匹配单元,各基本匹配单元构成了树状数据结构中的各个节点;
对后处理准则表达式中的匹配次数限定符进行解析,其中,将不定次数限定符解析为几个固定次数限定符相并联,将固定次数限定符解析为基本匹配单元相串联;
对后处理准则表达式中的选择表达式进行解析,将其解析为基本匹配单元相并联。
进一步地,根据得出的树状数据结构匹配识别结果,包括:
依据匹配准则,分别对树状数据结构中的各节点进行匹配打分;
选取出匹配分值最高的字符串。
进一步地,所述的匹配准则包括:单个普通字符匹配准则、字符集合的匹配准则和字符数目不等时的匹配准则,其中,
所述单个普通字符匹配准则,包括:
对于每一单个字符,遍历与该单个字符位置对应的候选项,若有候选项和该单个字符相同,则确定该候选项为最终的识别结果,且根据其候选位置打分;否则,打最低分,强制将识别结果修改为该单个字符;
所述的字符集合的匹配准则,包括:
遍历所有候选识别结果,若有候选项处于后处理准则表达式中字符集合所规定的范围内,则确定其为该字符的最终识别结果,并依据其候选位置打分;若没有一个候选项处于后处理准则表达式中字符集合所规定的范围内,则打最低分,且输出拒绝识别符号;
所述字符数目不等时的匹配准则,包括:
对于识别结果的字符数目不等于后处理准则表达式的字符数目时,相差的字符数目乘以最低分,作为罚分加入最终的分值中。
其中,打分时的标准为:所有的候选识别结果依据其可信度分为第一候选,第二候选,……第N候选;分数分为N个等级,分别依次对应第一候选,第二候选,……第N候选。
进一步地,在所述根据得出的树状数据结构匹配识别结果步骤之后,还包括:移位匹配,以进一步提高文字识别的正确率。
进一步地,所述移位匹配,包括:
将识别结果中的各字符分别对应的从所述树状结构数据中的根节点后的第1个节点开始向下对应的进行匹配打分;和/或
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于汉王科技股份有限公司,未经汉王科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201110037584.6/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种用于液下排污泵的新型连接架
- 下一篇:用于离心泵的三管路测试机