[发明专利]结合OCR技术的PDF文字提取方法有效

申请号：	200910076809.1	申请日：	2009-01-21
公开（公告）号：	CN101782896A	公开（公告）日：	2010-07-21
发明（设计）人：	江世盛;刘强	申请（专利权）人：	汉王科技股份有限公司
主分类号：	G06F17/22	分类号：	G06F17/22;G06K9/34
代理公司：	北京瑞盟知识产权代理有限公司 11300	代理人：	王友彭;廖立全
地址：	100193 北京***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	结合 ocr 技术 pdf 文字提取方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种结合OCR技术的PDF文字提取方法，其特征在于，该方法包括以下步骤：

(1)PDF数据提取：提取PDF文件中字符的第一编码、点阵图像数据、位置、字体和字号；所述第一编码为解析PDF后得到的字符编码；

(2)结合OCR技术确认字符内容：基于字符的点阵图像数据进行字符的OCR识别，获得识别结果以及识别可信度，将识别结果、识别可信度与步骤(1)中提取到的字符的第一编码进行比对后选取，得到字符的第二编码；所述第二编码为与识别结果一致时的第一编码或与识别结果不一致时识别可信度高于预先既定的阈值的OCR识别结果；

(3)对字符的第二编码进行处理：对字符的第二编码进行排序以及聚类操作，并根据需要进行版面重构；

(4)根据字符的位置、字体和字号，导出经过步骤(3)处理的字符的第二编码。

2.如权利要求1所述的PDF文字提取方法，其特征在于，步骤(1)中 PDF数据提取包括以下步骤：

(11)提取PDF页面描述指令：解析PDF文件结构并进行数据解码，根据页号获取相应页面的页面描述指令；

(12)分析页面描述指令：将页面描述指令中对文字的描述分解为对单个字符的描述，并提取单个字符的第一编码、位置、字体和字号；

(13)按照设定的图像分辨率，将提取的字符的第一编码转换为字符的点阵图像数据；

(14)如果页面描述指令中还有其他的待处理字符，则重复以上(12)、(13) 步骤。

3.如权利要求2所述的PDF文字提取方法，其特征在于，步骤(2)中结合OCR技术确认字符内容包括以下步骤：

(21)用OCR技术识别字符的点阵图像数据，得到识别结果和识别可信度；

(22)将步骤(12)中得到的字符的第一编码与识别结果进行比对；

如果一致，将字符的第一编码视为字符的第二编码；

如果不一致，则判断识别可信度是否高于预先设定的阈值，识别可信度高于预先设定的阈值则采用OCR识别结果作为字符的第二编码。