[发明专利]利用知识库海量关联信息的中文名片OCR数据修正系统在审
申请号: | 201410142535.2 | 申请日: | 2014-04-10 |
公开(公告)号: | CN103927352A | 公开(公告)日: | 2014-07-16 |
发明(设计)人: | 王晓平;肖仰华;汪卫 | 申请(专利权)人: | 江苏唯实科技有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06K9/20 |
代理公司: | 无锡市大为专利商标事务所(普通合伙) 32104 | 代理人: | 曹祖良 |
地址: | 214028 江苏省无锡市新*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 利用 知识库 海量 关联 信息 中文 名片 ocr 数据 修正 系统 | ||
1.一种利用知识库海量关联信息的中文名片OCR数据修正系统,其特征在于,包括图像采集模块、图像标准化处理模块、字块提取模块、OCR模块、知识库模块、数据修正模块、增量维护模块、结果展示模块;
所述图像采集模块用于获得名片照片的数字图像;
所述图像标准化处理模块用于对名片照片进行包括角度、尺寸在内的归一化处理,具体包括:图像灰度化、名片倾斜校正、名片区域剪切、名片尺寸标准化;
所述字块提取模块用于从名片图像中提取出各子字块;
所述OCR模块用于将名片图像转化为文本信息;
所述知识库模块作为名片数据修正的来源和依据,包含名片修正所需的信息;
所述数据修正模块用于根据知识库模块,对OCR识别结果中的错误进行修正;
所述增量维护模块用于对OCR识别及修正结果进行评判,并扩充知识库规模;
所述结果展示模块用于将修正后的结果进行输出。
2.如权利要求1所述的利用知识库海量关联信息的中文名片OCR数据修正系统,其特征在于:
所述图像标准化处理模块包含三个子模块:名片倾斜校正子模块、名片区域剪切子模块、名片缩放子模块;
所述名片倾斜校正子模块首先对名片照片进行图像灰度化处理;然后对名片进行旋转校正;
所述名片区域剪切子模块对倾斜校正后的灰度图像进行二值化处理;基于水平投影、垂直投影确定名片的区域,并按确定的区域将名片部分从图像背景中剪切出来;
所述名片缩放子模块对剪切出的名片区域,按初始设定尺寸进行比例缩放。
3.如权利要求2所述的利用知识库海量关联信息的中文名片OCR数据修正系统,其特征在于:
所述字块提取模块包括形态学处理子模块和字块提取子模块;
形态学处理子模块对名片图像的二值化结果图,进行数学形态学操作,以保留真正的字符区域;
字块提取子模块对保留下真正字符后的二值化结果图,进行连通区分析,并对每个连通区进行水平膨胀处理,然后再次进行连通区域分析,进而求出新连通区的外接矩形,最后根据外接矩形将字块区域作为子图像提取出来。
4.如权利要求1、2或3所述的利用知识库海量关联信息的中文名片OCR数据修正系统,其特征在于:
所述数据修正模块包括以下子模块:信息结构化子模块和信息修正子模块;
信息结构化子模块用于:
(a-1).预先枚举并建立信息的属性名称库,内容至少包括“单位”、“地址”;
(a-2).对OCR识别结果,首先从每条信息中寻找属性名称;
(a-3).如果有匹配,则进行属性名修正,与预先枚举定义的属性名称进行相似度比较,并从枚举库中取出相似度最高的进行替换;
(a-4).如果无匹配,则自动添加属性标注。
5.如权利要求4所述的利用知识库海量关联信息的中文名片OCR数据修正系统,其特征在于:
所述信息修正子模块包括预处理工作子模块、地址名-单位名称的关联数据修正子模块;
预处理工作子模块用于:
(b-1).对OCR结果中的地址、知识库中的地址记录,进行行政区域级别分割;
(b-2).对OCR结果中的单位机构名称、知识库中的单位机构名称进行中文分词处理,对分词后的各部分,分别赋以相应的权值。
6.如权利要求5所述的利用知识库海量关联信息的中文名片OCR数据修正系统,其特征在于:
预处理工作子模块处理步骤b-2中,采用基于整个中文维基百科知识库中每篇文章的中文分词结果统计出的IDF值作为权值的来源。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于江苏唯实科技有限公司,未经江苏唯实科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410142535.2/1.html,转载请声明来源钻瓜专利网。
- 上一篇:天然气井泡排剂智能投送装置
- 下一篇:多档位电控操作手柄