[发明专利]一种基于标准文献题录特征值的智能提取方法有效
申请号: | 201710578530.8 | 申请日: | 2017-07-17 |
公开(公告)号: | CN109271616B | 公开(公告)日: | 2022-09-16 |
发明(设计)人: | 严菁;陈银龙;金志刚;卞超杰;魏雪艳;王玮健;李正祥;程锦彬;许祥红 | 申请(专利权)人: | 江苏省质量和标准化研究院 |
主分类号: | G06F40/186 | 分类号: | G06F40/186;G06V30/148 |
代理公司: | 常州佰业腾飞专利代理事务所(普通合伙) 32231 | 代理人: | 康潇 |
地址: | 210000 江*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种基于标准文献题录特征值的智能提取方法,涉及一种文档图像内容的提取方法,通过对OCR技术进行封装,把标准文献图像转换成双层浮文PDF,根据对不同模板标准文本格式版面的分析,对标准文献题录字段位置区域进行定位和自动采集,改变原有人工录入的方式,减少员工工作量和提高数据准确性,提高题录字段采集、处理、提取效率和定位准确率。 | ||
搜索关键词: | 一种 基于 标准 文献 特征值 智能 提取 方法 | ||
【主权项】:
1.一种基于标准文献题录特征值的智能提取方法,其特征在于:包括如下步骤:步骤1:建立图像获取模块、图像处理模块、模版配置模块、文献提取模块和审核模块;图像获取模块用于获取标准文献纸质文本的图像,并生成文献图像;图像处理模块用于对文献图像进行清晰化处理,生成标准文献双层浮文PDF文件;模版配置模块用于对标准文献双层浮文PDF文件中的题录字段进行提取,生成标准文献题录字段;文献提取模块用于对标准文献题录字段的内容进行提取;审核模块用于让标准题录加工人员对标准文献题录字段的内容进行核对和修改;步骤2:图像获取模块获取标准文献纸质文本的Tif版本的标准文献图像,图像处理模块对标准文献图像进行清晰化处理,并通过Tif软件编辑器将Tif版本的标准文献图像处理生成单层PDF,再经过封装后的OCR识别,最后生成txt版本和双层浮文PDF版本的标准文献,即标准文献双层浮文PDF文件;步骤3:模版配置模块根据标准文献的编写格式规范,确定标准文献题录字段,模版配置模块采用位置区域截取或范围截取的方式对标准文献题录字段进行提取;步骤4:文献提取模块根据标准文献题录字段各自定位的区域,自动采集标准文献双层浮文PDF版本中所涵盖的文本内容;步骤5:标准题录加工人员通过审核模块对自动采集标准文献双层浮文PDF版本中所涵盖的文本内容进行核对,如果内容存在不正确的地方,标准题录加工人员通过审核模块对自动采集标准文献双层浮文PDF版本中所涵盖的文本内容进行修改。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于江苏省质量和标准化研究院,未经江苏省质量和标准化研究院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201710578530.8/,转载请声明来源钻瓜专利网。