[发明专利]基于云计算的文本扫描识别方法无效

申请号：	201310145112.1	申请日：	2013-04-25
公开（公告）号：	CN104123550A	公开（公告）日：	2014-10-29
发明（设计）人：	魏昊;张磊	申请（专利权）人：	魏昊;张磊
主分类号：	G06K9/20	分类号：	G06K9/20;G06K9/54
代理公司：	北京科亿知识产权代理事务所(普通合伙) 11350	代理人：	王清义
地址：	江苏省南京市白下区***	国省代码：	江苏;32
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明公开了一种基于云计算的文本扫描识别方法，包括以下步骤：文档图像预处理：针对从扫描仪直接扫描出的原始图像进行预处理；文档图像版面特征分析：将预处理文档图像加载到版面分析引擎进行处理：根据预处理文档图像的版面特征信息，添加掩膜并对关键域进行局部处理；碎片化：对经过文档图像掩膜步骤处理后的预处理文档图像进行切碎处理；碎片的OCR/ICR识别：识别小碎片，拼接并输出文字；语意识别：利用统计语言模型算法结合行业辞典，对OCR／ICR的结果进行逻辑校验。本发明利用图像特征识别，图像掩膜，图像碎片化，碎片的并发处理OCR／ICR，语意校验等特种方法综合使用，显著提高了文本扫描件的最终准确率。
搜索关键词：	基于计算文本扫描识别方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

一种基于云计算的文本扫描识别方法，其特征在于包括以下步骤：第一步，文档图像预处理：针对从扫描仪直接扫描出的原始图像进行预处理，以将原始图像二值化并且去除原始图像噪点，将扭曲的原始图像还原，将原始图像压缩以便后续图像处理；第二步，文档图像版面特征分析：将预处理文档图像加载到版面分析引擎进行处理，以获得预处理文档图像版面特征信息；第三步，文档图像掩膜：根据预处理文档图像的版面特征信息，添加相应的掩膜，然后对关键域进行局部处理，即提取预处理文档图像的版面特征信息并与掩模的特征信息进行匹配；第四步，碎片化：即文档图片定位与分割，具体为采用图像局部特征定位方法、表格识别方法和OCR关键字符识别定位方法，对经过文档图像掩膜步骤处理后的预处理文档图像进行切碎处理；第五步：碎片的OCR/ICR识别：识别小碎片，拼接并输出文字，以便进行语意识别；第六步，语意识别：利用统计语言模型算法结合行业辞典，对OCR／ICR的结果进行逻辑校验。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于魏昊;张磊，未经魏昊;张磊许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201310145112.1/，转载请声明来源钻瓜专利网。

上一篇：一种里程表平面齿自动定位铣削机
下一篇：一种过盈螺栓装配用气动机械式拉力机

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06K 数据识别；数据表示；记录载体；记录载体的处理
G06K9-00 用于阅读或识别印刷或书写字符或者用于识别图形，例如，指纹的方法或装置
G06K9-03 .错误的检测或校正，例如，用重复扫描图形的方法
G06K9-18 .应用具有附加代码标记或含有代码标记的打印字符的，例如，由不同形状的各个笔画组成的，而且每个笔画表示不同的代码值的字符
G06K9-20 .图像捕获
G06K9-36 .图像预处理，即无须判定关于图像的同一性而进行的图像信息处理
G06K9-60 .图像捕获和多种预处理作用的组合

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]基于云计算的文本扫描识别方法无效

专利文献下载