[发明专利]一种基于标准文献题录特征值的智能提取方法有效
申请号: | 201710578530.8 | 申请日: | 2017-07-17 |
公开(公告)号: | CN109271616B | 公开(公告)日: | 2022-09-16 |
发明(设计)人: | 严菁;陈银龙;金志刚;卞超杰;魏雪艳;王玮健;李正祥;程锦彬;许祥红 | 申请(专利权)人: | 江苏省质量和标准化研究院 |
主分类号: | G06F40/186 | 分类号: | G06F40/186;G06V30/148 |
代理公司: | 常州佰业腾飞专利代理事务所(普通合伙) 32231 | 代理人: | 康潇 |
地址: | 210000 江*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 标准 文献 特征值 智能 提取 方法 | ||
本发明公开了一种基于标准文献题录特征值的智能提取方法,涉及一种文档图像内容的提取方法,通过对OCR技术进行封装,把标准文献图像转换成双层浮文PDF,根据对不同模板标准文本格式版面的分析,对标准文献题录字段位置区域进行定位和自动采集,改变原有人工录入的方式,减少员工工作量和提高数据准确性,提高题录字段采集、处理、提取效率和定位准确率。
技术领域
本发明涉及一种文档图像内容的提取方法,尤其涉及一种基于标准文献题录特征值的智能提取方法。
背景技术
文本是计算机视觉的许多应用中的一项重要特征。图像中的文本存有很多有用的信息,对视觉内容理解和获取至关重要。标准文献文本图像是由纸质标准文本通过扫描仪图像数据采集设备生成的,以静止图像编码方法存储的数字图像,载荷有丰富的文字信息、图像信息、格式信息等重要内容。随着全球化贸易往来,企业对国际标准的需求日益旺盛,多种国外语言文字的文本图像需要进行识别和处理。文本图像的文种识别是对以图像形式呈现、由不同语言文字构成的图像,提取能够用于计算机识别的底层特征,实现文种的自动分类,对于有效提取文本图像中的信息具有十分重要的意义。随着网络通信技术和信息处理技术的迅速发展,文本图像的分析处理、提取和定位等技术也在不断改进,为文本图像内容的深度挖掘应用提供支撑。标准文献题录提取的主要目的是为用户提供标准查询的简要内容介绍,从而方便用户的购买和查询。其中关键点和难点就是准确快速的文本定位,文本定位的好坏将直接影响系统的识别结果。
中国信息技术与应用学术论坛,2008《基于版面特征的文档图像的文本定位方法》提供一种图像的文本定位技术,并针对基于版面特征的文档图像提出了一种文本定位方法。该方法首先利用拉普拉斯算子粗略检测出文字边缘区域,利用形态学膨胀方法扩展区域,接着通过聚类分析来提取文本层,最后根据中文字符的自身矩形区域比例、宽高比等特征有效定位出图像中的文本区域
中国信息技术与应用学术论坛,2008《基于版面特征的文档图像的文本定位方法》其首先定位首行和末行文本区域位置,再借助中文字符一般的宽高比来进行文本区域定位,使用一个宽高比的阶梯函数扩展笔画矩形区域,主要是纵向的扩展,从而定位出文档图像中的文本区域。
其针对的是文档图像中文字字符通用的宽高比0.7,但是在不同语种、混合复杂版面文档图像处理中,字符实际占用空间与周围环境有关,文本区域定位往往达不到满意的效果,不确定因素较多,无法满足标准文献题录特征值智能化提取的实际需求。
发明内容
本发明的目的是提供一种基于标准文献题录特征值的智能提取方法,解决了现有技术中题录字段的采集、处理和提取的效率低,定位准确率低的问题。
为实现上述目的,本发明采用以下技术方案:
一种基于标准文献题录特征值的智能提取方法,包括如下步骤:
步骤1:建立图像获取模块、图像处理模块、模版配置模块、文献提取模块和审核模块;图像获取模块用于获取标准文献纸质文本的图像,并生成文献图像;图像处理模块用于对文献图像进行清晰化处理,生成标准文献双层浮文PDF文件;模版配置模块用于对标准文献双层浮文PDF文件中的题录字段进行提取,生成标准文献题录字段;文献提取模块用于对标准文献题录字段的内容进行提取;审核模块用于让标准题录加工人员对标准文献题录字段的内容进行核对和修改;
步骤2:图像获取模块获取标准文献纸质文本的Tif版本的标准文献图像,图像处理模块对标准文献图像进行清晰化处理,并通过Tif软件编辑器将Tif版本的标准文献图像处理生成单层PDF,再经过封装后的OCR识别,最后生成txt版本和双层浮文PDF版本的标准文献,即标准文献双层浮文PDF文件;
步骤3:模版配置模块根据标准文献的编写格式规范,确定标准文献题录字段,模版配置模块采用位置区域截取或范围截取的方式对标准文献题录字段进行提取;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于江苏省质量和标准化研究院,未经江苏省质量和标准化研究院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710578530.8/2.html,转载请声明来源钻瓜专利网。