[发明专利]基于正则表达式的文字后处理方法和装置有效
申请号: | 201110037584.6 | 申请日: | 2011-02-14 |
公开(公告)号: | CN102637180A | 公开(公告)日: | 2012-08-15 |
发明(设计)人: | 王晓健 | 申请(专利权)人: | 汉王科技股份有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06K9/20 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 100193 北京*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 正则 表达式 文字 处理 方法 装置 | ||
1.一种基于正则表达式的文字后处理方法,其特征在于,包括以下步骤:
依据后处理准则语法设置当前识别区域的后处理准则表达式;
解析该后处理准则表达式,得出树状数据结构;
根据得出的树状数据结构匹配识别结果;
将匹配值最高的识别结果作为后处理结果。
2.根据权利要求1所述基于正则表达式的文字后处理方法,其特征在于,所述后处理准则语法,用于描述后处理准则,其包括:正则表达式语法元素以及用于修饰有候选答案的识别区域的修饰符,其中,
所述正则表达式语法元素包括:普通字符、字符集合、匹配次数限定符、分组表达式、选择表达式、转义字符和修饰符;所述普通字符包括:字母、数字、汉字、下划线,以及没有被定义特殊意义的标点符号;所述匹配次数限定符包括:不定次数限定符和固定次数限定符。
3.根据权利要求1或2所述基于正则表达式的文字后处理方法,其特征在于,解析该后处理准则表达式,得出树状数据结构,包括:
对后处理准则表达式中的普通字符和字符集合进行解析,分别将其解析为基本匹配单元,各基本匹配单元构成了树状数据结构中的各个节点;
对后处理准则表达式中的匹配次数限定符进行解析,其中,将不定次数限定符解析为几个固定次数限定符相并联,将固定次数限定符解析为基本匹配单元相串联;
对后处理准则表达式中的选择表达式进行解析,将其解析为基本匹配单元相并联。
4.根据权利要求1所述基于正则表达式的文字后处理方法,其特征在于,根据得出的树状数据结构匹配识别结果,包括:
依据匹配准则,分别对树状数据结构中的各节点进行匹配打分;
选取出匹配分值最高的字符串。
5.根据权利要求4所述基于正则表达式的文字后处理方法,其特征在于,所述的匹配准则包括:单个普通字符匹配准则、字符集合的匹配准则和字符数目不等时的匹配准则,其中,
所述单个普通字符匹配准则,包括:
对于每一单个字符,遍历与该单个字符位置对应的候选项,若有候选项和该单个字符相同,则确定该候选项为最终的识别结果,且根据其候选位置打分;否则,打最低分,强制将识别结果修改为该单个字符;
所述的字符集合的匹配准则,包括:
遍历所有候选识别结果,若有候选项处于后处理准则表达式中字符集合所规定的范围内,则确定其为该字符的最终识别结果,并依据其候选位置打分;若没有一个候选项处于后处理准则表达式中字符集合所规定的范围内,则打最低分,且输出拒绝识别符号;
所述字符数目不等时的匹配准则,包括:
对于识别结果的字符数目不等于后处理准则表达式的字符数目时,相差的字符数目乘以最低分,作为罚分加入最终的分值中。
6.根据权利要求4或5所述基于正则表达式的文字后处理方法,其特征在于,打分时的标准为:所有的候选识别结果依据其可信度分为第一候选,第二候选,……第N候选;分数分为N个等级,分别依次对应第一候选,第二候选,……第N候选。
7.根据权利要求1所述基于正则表达式的文字后处理方法,其特征在于,在所述根据得出的树状数据结构匹配识别结果步骤之后,还包括:移位匹配,以进一步提高文字识别的正确率。
8.根据权利要求7所述基于正则表达式的文字后处理方法,其特征在于,所述移位匹配,包括:
将识别结果中的各字符分别对应的从所述树状结构数据中的根节点后的第1个节点开始向下对应的进行匹配打分;和/或
从识别结果中的第2个字符开始从所述树状结构数据中的根节点开始向下对应的进行匹配打分;
选取分值最大的匹配结果。
9.根据权利要求1所述基于正则表达式的文字后处理方法,其特征在于,在所述将匹配值最高的识别结果作为后处理结果之后,还包括:标记不可信的识别结果。
10.一种基于正则表达式的文字后处理装置,其特征在于,包括以下模块:
设置模块,依据后处理准则语法设置当前识别区域的后处理准则表达式;
解析模块,解析该后处理准则表达式,得出树状数据结构;
匹配模块,根据得出的树状数据结构匹配识别结果;
筛选模块,将匹配值最高的识别结果作为后处理结果。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于汉王科技股份有限公司,未经汉王科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201110037584.6/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种用于液下排污泵的新型连接架
- 下一篇:用于离心泵的三管路测试机