首页在售求购查询申请展会资讯专利榜企服商城升级VIP

立即登录免费注册

在售专利
求购专利
查询专利
新闻资讯
技术展会
招商加盟
专利榜

本网专利代理业务由天津创信方达专利代理事务所(普通合伙)承接机构代码：12247 本网专利代理业务由天津创信方达专利代理事务所(普通合伙)承接机构代码：12247 本网专利代理业务由天津创信方达专利代理事务所(普通合伙)承接机构代码：12247

本网专利代理业务由天津创信方达专利代理事务所(普通合伙)承接机构代码：12247 本网专利代理业务由天津创信方达专利代理事务所(普通合伙)承接机构代码：12247 本网专利代理业务由天津创信方达专利代理事务所(普通合伙)承接机构代码：12247

[发明专利]OCR识别纠错方法、装置及设备在审

申请号：	201910955162.3	申请日：	2019-10-09
公开（公告）号：	CN110751234A	公开（公告）日：	2020-02-04
发明（设计）人：	戴建新;汪洋;付瑞吉;王士进;魏思;胡国平	申请（专利权）人：	科大讯飞股份有限公司
主分类号：	G06K9/72	分类号：	G06K9/72;G06F40/289
代理公司：	11252 北京维澳专利代理有限公司	代理人：	王立民;金海
地址：	230088 安徽省***	国省代码：	安徽;34
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	分词字符序列标签装置及设备资源利用率纠错性能先验信息序列替换构建纠错去除排序预测
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种OCR识别纠错方法，其特征在于，包括：

基于OCR识别结果，得到包含OCR分词标签的第一字符序列以及去除OCR分词标签的未分词字符序列；

利用预先构建的分词模型对所述未分词字符序列进行分词，得到包含预测分词标签的第二字符序列，所述第一字符序列与所述第二字符序列具有相同的字符排序；

根据所述第一字符序列以及所述第二字符序列，确定最优分词序列；

利用所述最优分词序列替换所述识别结果。

2.根据权利要求1所述的OCR识别纠错方法，其特征在于，所述根据所述第一字符序列以及所述第二字符序列，确定最优分词序列包括：

基于所述OCR分词标签确定所述第一字符序列的第一分词路径；

基于所述预测分词标签确定所述第二字符序列的第二分词路径；

根据所述第一分词路径以及所述第二分词路径，获取最优分词路径。

3.根据权利要求2所述的OCR识别纠错方法，其特征在于，

所述第一分词路径包括：利用所述OCR分词标签中的起始标签和截止标签，依字符排序确定的所述第一字符序列中每个分词的第一分词单元路径；

所述第二分词路径包括：利用所述预测分词标签中的起始标签和截止标签，依字符排序确定的所述第二字符序列中每个分词的第二分词单元路径。

4.根据权利要求3所述的OCR识别纠错方法，其特征在于，所述根据所述第一分词路径以及所述第二分词路径，获取最优分词路径包括：

在按照字符排序确定每个分词的路径过程中，利用预先构建的打分器分别且依次为所述第一分词单元路径以及所述第二分词单元路径打分，得到相应的第一得分和第二得分；

并且，只有当同一个字符对应的所述OCR分词标签以及所述预测分词标签均为截止标签时，根据当前已确定的所述第一得分以及所述第二得分，融合相应的所述第一分词单元路径以及所述第二分词单元路径，得到最优当前路径；

汇总全部所述最优当前路径，得到所述最优分词路径。

5.根据权利要求4所述的OCR识别纠错方法，其特征在于，所述根据当前已确定的所述第一得分以及所述第二得分，融合相应的所述第一分词单元路径以及所述第二分词单元路径，得到最优当前路径具体包括：

利用预设的相关领域的词典，分别判断当前已确定的所述第一分词路径以及所述第二分词路径中的分词是否与所述词典中的单词匹配；

如果当前已确定的所述第一分词路径以及所述第二分词路径中的分词均匹配到所述单词或者均与所述单词不匹配时，才以当前已确定的所述第一得分以及所述第二得分，融合相应的所述第一分词单元路径以及所述第二分词单元路径，得到所述最优当前路径；否则，以其中与所述单词匹配的分词所在的分词路径作为所述最优当前路径。

6.根据权利要求1～5任一项所述的OCR识别纠错方法，其特征在于，预先构建所述分词模型包括：

基于序列标注任务，以预设的深度学习网络结构建模；

通过大规模通用语料对所述分词模型进行训练；

通过相关领域语料对所述分词模型进行参数调节。

7.一种OCR识别纠错装置，其特征在于，包括：

分词序列获取模块，用于基于OCR识别结果，得到包含OCR分词标签的第一字符序列以及去除OCR分词标签的未分词字符序列；

分词序列预测模块，用于利用预先构建的分词模型对所述未分词字符序列进行分词，得到包含预测分词标签的第二字符序列，所述第一字符序列与所述第二字符序列具有相同的字符排序；

最优分词计算模块，用于根据所述第一字符序列以及所述第二字符序列，确定最优分词序列；

OCR纠错模块，用于利用所述最优分词序列替换所述识别结果。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于科大讯飞股份有限公司，未经科大讯飞股份有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201910955162.3/1.html，转载请声明来源钻瓜专利网。

上一篇：一种养殖羊栖菜初级产品干品品质等级分类方法
下一篇：一种办公室用卡片分发派送机

同类专利

专利分类

G06 计算；推算；计数
G06K 数据识别；数据表示；记录载体；记录载体的处理
G06K9-00 用于阅读或识别印刷或书写字符或者用于识别图形，例如，指纹的方法或装置
G06K9-03 .错误的检测或校正，例如，用重复扫描图形的方法
G06K9-18 .应用具有附加代码标记或含有代码标记的打印字符的，例如，由不同形状的各个笔画组成的，而且每个笔画表示不同的代码值的字符
G06K9-20 .图像捕获
G06K9-36 .图像预处理，即无须判定关于图像的同一性而进行的图像信息处理
G06K9-60 .图像捕获和多种预处理作用的组合

免登录下载普通用户下载升级VIP会员，免费下载

友情链接：交换友情链接需要网站权重大于4，网站收录10W以上，如符合条件，请联系QQ：。

关于我们寻求报道投稿须知广告合作版权声明网站地图友情链接企业标识联系我们

在线咨询

周一至周五 9:00-18:00

版权所有http://www.vipzhuanli.com/公布日期

咨询在线客服

咨询在线客服

tel code back_top