[发明专利]一种PDF文档乱码的检测、校正的方法有效
申请号: | 201510181385.0 | 申请日: | 2015-04-16 |
公开(公告)号: | CN104732228B | 公开(公告)日: | 2018-03-30 |
发明(设计)人: | 邹季英;梁洵;袁仁慧 | 申请(专利权)人: | 同方知网数字出版技术股份有限公司;同方知网(北京)技术有限公司 |
主分类号: | G06K9/32 | 分类号: | G06K9/32 |
代理公司: | 北京天奇智新知识产权代理有限公司11340 | 代理人: | 刘黎明 |
地址: | 100084 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 pdf 文档 乱码 检测 校正 方法 | ||
技术领域
本发明涉及PDF文档的碎片化加工过程中乱码字符检测、校正的方法尤其涉及中文和英文PDF文档乱码字符的检测、校正的方法。
背景技术
PDF(Portable Document Format,便携文件格式)是一种电子文档格式,具有与操作系统平台无关性的特点,已成为电子文档发行和数字化信息传播中广泛使用的理想文档格式。
在PDF文档的碎片化加工过程(元数据标引)中,要对文档进行取字操作。所谓取字是指将文档字符复制并粘贴到指定位置。通常,文档显示内容正确并且显示内容和取字结果一致。当显示内容与取字结果不一致,即显示正确、取字出错时,称这种现象为PDF文档的乱码现象。当取字结果含大量乱码时,标引人员必须用键盘逐字逐句敲入标引内容;当少量或个别乱码掺杂其中难以发现时,为保证标引质量标引人员要花费大量时间检查取字结果。因此,乱码现象严重降低了元数据标引的工作效率和质量。
乱码现象也严重影响了电子文档二次加工中数据内容的精准性。随着计算机技术、网络技术的不断发展,数字化信息传播成为主流传播方式。在数字化信息传播中,要满足不同格式不同类型的电子文档间互相转换需求,例如PDF与WORD、EPUB之间互转。PDF文档转换过程中可能出现下述现象:一个PDF文档在页面文字显示正确的前提下转换为其他格式电子文档时,转换后的文档出现字符乱码现象。虽然转换后的文档可以通过人工检查发现并纠正乱码,但是人工检查不仅费时费力,而且当少量乱码掺杂在文档中人眼不易察觉,影响了数据内容准确性,降低了加工质量。
在PDF文档碎片化加工时,倘若先对文档进行乱码检测、校正,从源头上找到乱码纠正乱码,就可避免乱码对后续加工的不良影响。因此,对PDF文档进行乱码检测、校正是十分必要的。目前,鲜有公开的成熟的方法解决PDF文档乱码问题。近似的技术,如在PDF文字提取中结合OCR(Optical Character Recognition)技术以提高文字提取的准确性。OCR技术是一种利用字符识别技术将字符的图像转换为字符计算机内码的技术。OCR技术包括图像数据预处理、版面分析、文字切分、单字符识别。在PDF文字提取中主要使用了OCR技术中的单字识别技术。在乱码检测中,倘若对文档的每个字符不加区别地统一使用OCR技术中的单字识别技术,所花费的成本很高。例如,对于大部分字符正常仅含少量乱码的PDF文档,对每个字符使用OCR单字识别技术,不可避免地将大量时间消耗在识别正常字符上。
发明内容
为解决上述技术问题,本发明的目的是提供一种PDF文档乱码检测、校正的方法,该方法采用字体特征和字符的图像统计特征结合的方式,实现了乱码的自动检测,排除乱码对PDF文档碎片化加工的干扰,提高加工质量降低加工成本。
本发明的目的通过以下的技术方案来实现:
一种PDF文档乱码检测、校正的方法,包括:
提取PDF文档内所有字体特征;
根据字体特征将字体分为正常字体、乱码字体和待定字体;
提取待定字体中字符的点阵图像,并基于图像统计特征的乱码检测算法计算点阵图像与对应编码的相似度,根据相似度判断待定字体中的正常字符或乱码字符;
将所述待定字体中的乱码字符和乱码字体中的乱码字符进行纵向和横向编改校正;
通过校正结果修正PDF文档,去除乱码字符。
与现有技术相比,本发明的一个或多个实施例可以具有如下优点:
从PDF文档字体特征和字符的图像特征两个角度出发,互相补充,进一步提高乱码检测效率;
乱码检测时以字体为单位,相同字体重复出现的字符只需检测一次,摒弃了从文档逐页逐句逐字取字重复检测的低效的方式;
在乱码检测中,基于图像统计特征的乱码检测算法与OCR单字识别技术相比,优势在于前者以字符编码为导向结合图像特征进行乱码判断,即根据当前字符的编码查找特征库中对应的点阵图像的统计特征,通过当前字符的点阵图像与统计特征的相似度来判断当前字符是否为乱码。而后者直接根据点阵图像进行识别,再将识别结果与字符编码对比判断。OCR单字识别技术一般进行两级识别:粗识别和细识别。粗识别缩小范围,细识别确定最终结果。而乱码检测中,字符编码已经确定了范围并不需要粗识别缩小范围。由此可见基于图像统计特征的乱码检测算法相比OCR单字识别技术,更简单、省时省力更适合于乱码检测。
纵向和横向编改相结合降低了人工编改用时,提高了乱码校正效率。
附图说明
图1是PDF文档乱码检测、校正的方法流程图。
具体实施方式
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于同方知网数字出版技术股份有限公司;同方知网(北京)技术有限公司,未经同方知网数字出版技术股份有限公司;同方知网(北京)技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510181385.0/2.html,转载请声明来源钻瓜专利网。