[发明专利]利用知识库海量关联信息的中文名片OCR数据修正系统在审
申请号: | 201410142535.2 | 申请日: | 2014-04-10 |
公开(公告)号: | CN103927352A | 公开(公告)日: | 2014-07-16 |
发明(设计)人: | 王晓平;肖仰华;汪卫 | 申请(专利权)人: | 江苏唯实科技有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06K9/20 |
代理公司: | 无锡市大为专利商标事务所(普通合伙) 32104 | 代理人: | 曹祖良 |
地址: | 214028 江苏省无锡市新*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明提供一种利用知识库海量关联信息的中文名片OCR数据修正系统,包括图像采集模块、图像标准化处理模块、字块提取模块、OCR模块、知识库模块、数据修正模块、增量维护模块、结果展示模块。本发明重点在于对OCR模块的识别结果,首先进行信息结构化处理来为待修正数据打上标签,然后利用知识库模块的海量关联信息,结合中文分词、基于知识库的重要度加权、基于文本和图像的相似度比较、信息融合等一系列技术来对地址、单位名称关联信息进行修正以提升正确率;最后,将修正后的OCR结果进行输出展示。同时,系统的增量维护模块以半自动方式来对知识库进行信息维护,从而适应信息量不断增长的需求。 | ||
搜索关键词: | 利用 知识库 海量 关联 信息 中文 名片 ocr 数据 修正 系统 | ||
【主权项】:
一种利用知识库海量关联信息的中文名片OCR数据修正系统,其特征在于,包括图像采集模块、图像标准化处理模块、字块提取模块、OCR模块、知识库模块、数据修正模块、增量维护模块、结果展示模块; 所述图像采集模块用于获得名片照片的数字图像; 所述图像标准化处理模块用于对名片照片进行包括角度、尺寸在内的归一化处理,具体包括:图像灰度化、名片倾斜校正、名片区域剪切、名片尺寸标准化; 所述字块提取模块用于从名片图像中提取出各子字块; 所述OCR模块用于将名片图像转化为文本信息; 所述知识库模块作为名片数据修正的来源和依据,包含名片修正所需的信息; 所述数据修正模块用于根据知识库模块,对OCR识别结果中的错误进行修正; 所述增量维护模块用于对OCR识别及修正结果进行评判,并扩充知识库规模; 所述结果展示模块用于将修正后的结果进行输出。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于江苏唯实科技有限公司,未经江苏唯实科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201410142535.2/,转载请声明来源钻瓜专利网。
- 上一篇:天然气井泡排剂智能投送装置
- 下一篇:多档位电控操作手柄