[发明专利]利用知识库海量关联信息的中文名片OCR数据修正系统在审

专利信息
申请号: 201410142535.2 申请日: 2014-04-10
公开(公告)号: CN103927352A 公开(公告)日: 2014-07-16
发明(设计)人: 王晓平;肖仰华;汪卫 申请(专利权)人: 江苏唯实科技有限公司
主分类号: G06F17/30 分类号: G06F17/30;G06K9/20
代理公司: 无锡市大为专利商标事务所(普通合伙) 32104 代理人: 曹祖良
地址: 214028 江苏省无锡市新*** 国省代码: 江苏;32
权利要求书: 查看更多 说明书: 查看更多
摘要: 发明提供一种利用知识库海量关联信息的中文名片OCR数据修正系统,包括图像采集模块、图像标准化处理模块、字块提取模块、OCR模块、知识库模块、数据修正模块、增量维护模块、结果展示模块。本发明重点在于对OCR模块的识别结果,首先进行信息结构化处理来为待修正数据打上标签,然后利用知识库模块的海量关联信息,结合中文分词、基于知识库的重要度加权、基于文本和图像的相似度比较、信息融合等一系列技术来对地址、单位名称关联信息进行修正以提升正确率;最后,将修正后的OCR结果进行输出展示。同时,系统的增量维护模块以半自动方式来对知识库进行信息维护,从而适应信息量不断增长的需求。
搜索关键词: 利用 知识库 海量 关联 信息 中文 名片 ocr 数据 修正 系统
【主权项】:
一种利用知识库海量关联信息的中文名片OCR数据修正系统,其特征在于,包括图像采集模块、图像标准化处理模块、字块提取模块、OCR模块、知识库模块、数据修正模块、增量维护模块、结果展示模块; 所述图像采集模块用于获得名片照片的数字图像; 所述图像标准化处理模块用于对名片照片进行包括角度、尺寸在内的归一化处理,具体包括:图像灰度化、名片倾斜校正、名片区域剪切、名片尺寸标准化; 所述字块提取模块用于从名片图像中提取出各子字块; 所述OCR模块用于将名片图像转化为文本信息; 所述知识库模块作为名片数据修正的来源和依据,包含名片修正所需的信息; 所述数据修正模块用于根据知识库模块,对OCR识别结果中的错误进行修正; 所述增量维护模块用于对OCR识别及修正结果进行评判,并扩充知识库规模; 所述结果展示模块用于将修正后的结果进行输出。 
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于江苏唯实科技有限公司,未经江苏唯实科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201410142535.2/,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top