[发明专利]一种文字识别纠错方法、纠错系统及计算机装置有效
申请号: | 201710813109.0 | 申请日: | 2017-09-11 |
公开(公告)号: | CN107633250B | 公开(公告)日: | 2023-04-18 |
发明(设计)人: | 刘晨 | 申请(专利权)人: | 畅捷通信息技术股份有限公司 |
主分类号: | G06V30/148 | 分类号: | G06V30/148 |
代理公司: | 北京友联知识产权代理事务所(普通合伙) 11343 | 代理人: | 尚志峰;汪海屏 |
地址: | 100094 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 文字 识别 纠错 方法 系统 计算机 装置 | ||
1.一种文字识别纠错方法,其特征在于,包括:
获取文字图片,对所述文字图片进行识别得到文字识别结果;
检测所述文字识别结果,确定识别错误区域;
获取所述识别错误区域内文字的存在概率,将所述存在概率小于预设阈值的文字作为错误文字;
筛选所述错误文字的相似候选集;
对所述相似候选集内文字排列组合,并计算匹配得分,将所述匹配得分最高的组合作为纠错结果;
将所述纠错结果与所述错误文字进行替换;
所述筛选所述错误文字的所述相似候选集的步骤,具体包括:
根据所述错误文字的属性与汉字库中文字的属性,计算所述错误文字与所述汉字库中文字的相似度得分;
将所述相似度得分大于预设阈值的所述汉字库中文字进行集合,作为所述相似候选集;
所述错误文字的属性以及所述汉字库中文字的属性包括文字结构、四角码、笔顺编码、字向量;
所述根据所述错误文字的属性与所述汉字库中文字的属性,计算所述错误文字与所述汉字库中文字的相似度得分的步骤,具体包括:
比较所述错误文字的文字结构与所述汉字库中文字的文字结构,当所述错误文字的文字结构与所述汉字库中文字的文字结构相同时,得到结构相似度得分;
对所述错误文字的四角码与所述汉字库中文字的四角码进行编辑距离计算,得到四角码相似度得分;
对所述错误文字的笔顺编码与所述汉字库中文字的笔顺编码进行编辑距离计算,得到笔顺相似度得分;
计算所述错误文字的字向量与所述汉字库中文字的字向量的夹角的余弦值,作为字向量相似度得分;
计算所述结构相似度得分、所述四角码相似度得分、所述笔顺相似度得分、所述字向量相似度得分的和,作为所述相似度得分。
2.根据权利要求1所述的文字识别纠错方法,其特征在于,对所述相似候选集内文字排列组合,并计算匹配得分,将所述匹配得分最高的组合作为所述纠错结果的步骤,具体包括:
对所述相似候选集内文字排列组合,得到多个词;
分别对每个所述词与领域词典内的领域词进行编辑距离计算,得到匹配得分;
将所述匹配得分最高的词作为所述纠错结果。
3.根据权利要求1所述的文字识别纠错方法,其特征在于,还包括:
存储所述错误文字的所述相似候选集。
4.一种文字识别纠错系统,其特征在于,包括:
识别单元,用于获取文字图片,对所述文字图片进行识别得到文字识别结果;
检测单元,用于检测所述文字识别结果,确定识别错误区域;
获取单元,用于获取所述识别错误区域内文字的存在概率,将所述存在概率小于预设阈值的文字作为错误文字;
筛选单元,用于筛选所述错误文字的相似候选集;
第一计算单元,用于对所述相似候选集内文字排列组合,并计算匹配得分,将所述匹配得分最高的组合作为纠错结果;
替换单元,用于将所述纠错结果与所述错误文字进行替换;
所述筛选单元,包括:
第二计算单元,用于根据所述错误文字的属性与汉字库中文字的属性,计算所述错误文字与所述汉字库中文字的相似度得分;
所述筛选单元,具体用于将所述相似度得分大于预设阈值的所述汉字库中文字进行集合,作为所述相似候选集;
所述错误文字的属性以及所述汉字库中文字的属性包括文字结构、四角码、笔顺编码、字向量;
所述第二计算单元,具体用于:
比较所述错误文字的文字结构与所述汉字库中文字的文字结构,当所述错误文字的文字结构与所述汉字库中文字的文字结构相同时,得到结构相似度得分;
对所述错误文字的四角码与所述汉字库中文字的四角码进行编辑距离计算,得到四角码相似度得分;
对所述错误文字的笔顺编码与所述汉字库中文字的笔顺编码进行编辑距离计算,得到笔顺相似度得分;
计算所述错误文字的字向量与所述汉字库中文字的字向量的夹角的余弦值,作为字向量相似度得分;
计算所述结构相似度得分、所述四角码相似度得分、所述笔顺相似度得分、所述字向量相似度得分的和,作为所述相似度得分。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于畅捷通信息技术股份有限公司,未经畅捷通信息技术股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710813109.0/1.html,转载请声明来源钻瓜专利网。
- 上一篇:图像区域的确定方法及装置
- 下一篇:一种基于图像增强的车辆识别系统