[发明专利]OCR识别纠错方法、装置及设备在审
申请号: | 201910955162.3 | 申请日: | 2019-10-09 |
公开(公告)号: | CN110751234A | 公开(公告)日: | 2020-02-04 |
发明(设计)人: | 戴建新;汪洋;付瑞吉;王士进;魏思;胡国平 | 申请(专利权)人: | 科大讯飞股份有限公司 |
主分类号: | G06K9/72 | 分类号: | G06K9/72;G06F40/289 |
代理公司: | 11252 北京维澳专利代理有限公司 | 代理人: | 王立民;金海 |
地址: | 230088 安徽省*** | 国省代码: | 安徽;34 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种OCR识别纠错方法、装置及设备,其中方法包括:基于OCR识别结果,得到包含OCR分词标签的第一字符序列以及去除OCR分词标签的未分词字符序列;利用预先构建的分词模型对所述未分词字符序列进行分词,得到包含预测分词标签的第二字符序列,所述第一字符序列与所述第二字符序列具有相同的字符排序;根据所述第一字符序列以及所述第二字符序列,确定最优分词序列;利用所述最优分词序列替换所述识别结果。本发明相比现有的分词方案,有效利用了OCR本身提供的关键的先验信息,因而具备更佳的分词纠错性能以及更为合理的资源利用率。 | ||
搜索关键词: | 分词 字符序列 标签 装置及设备 资源利用率 纠错性能 先验信息 序列替换 构建 纠错 去除 排序 预测 | ||
【主权项】:
1.一种OCR识别纠错方法,其特征在于,包括:/n基于OCR识别结果,得到包含OCR分词标签的第一字符序列以及去除OCR分词标签的未分词字符序列;/n利用预先构建的分词模型对所述未分词字符序列进行分词,得到包含预测分词标签的第二字符序列,所述第一字符序列与所述第二字符序列具有相同的字符排序;/n根据所述第一字符序列以及所述第二字符序列,确定最优分词序列;/n利用所述最优分词序列替换所述识别结果。/n
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于科大讯飞股份有限公司,未经科大讯飞股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201910955162.3/,转载请声明来源钻瓜专利网。