[发明专利]语言图文识别系统及其实现方法有效
申请号: | 201811506145.3 | 申请日: | 2018-12-10 |
公开(公告)号: | CN109858324B | 公开(公告)日: | 2022-10-21 |
发明(设计)人: | 朱西平;苏赋;汪敏;苟智坚;韩斌;李季;郑达;帅靖;杨朋 | 申请(专利权)人: | 西南石油大学;成都信息工程大学;四川品亿科技有限公司 |
主分类号: | G06V30/40 | 分类号: | G06V30/40;G06T7/13;G06T7/11 |
代理公司: | 成都众恒智合专利代理事务所(普通合伙) 51239 | 代理人: | 钟显毅 |
地址: | 610500 四*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 语言 图文 识别 系统 及其 实现 方法 | ||
1.一种语言图文识别系统,其特征在于,包括用于从实体图文信息资料中获取原始图像数据的实体扫描装置,用于从后台数据服务器中获取原始图像数据的图像提取模块,用于原始图像进行边缘预识别的边缘预识别模块,用于将边缘预识别后的图像预分割为图片图像信息和文字图像信息的预分割模块,用于将分割后且相关联的图片图像信息和文字图像信息进行相同标记的预标记模块,用于对标记后的图片图像信息进行存储的图片临时存储模块,用于对标记后的文字图像进行亮度处理的亮度调节模块,用于对亮度处理后的文字图像进行识别的OCR文字识别模块,用于存储识别后的文字数据的文字临时存储模块,用于分别从图片临时存储模块和文字临时存储模块中提取具有相同标记的图片图像信息和文字数据的目标提取模块,用于将相同标记的图片图像和文字组合的图文重组模块,以及用于存储重组后的图文信息的重组图文存储模块;
所述的语言图文识别系统的实现方法,包括如下步骤:
(S01)通过实体扫描装置或图像提取模块获取原始图像;
(S02)对原始图像进行边缘预识别,获取原始图像中所包含的各局部图像的边缘信息;
(S03)根据所述边缘信息判断所述局部图像的边缘范围大小,将边缘范围超过一设定阈值的局部图像划分为图片图像,反之划分为局部文字图像,并将所述划分出的局部文字图像中相邻边缘间隔小于一设定阈值的文字图像组合为文字图像;
(S04)识别图片图像与文字图像之间最靠近的边缘之间的间距,若该间距低于一设定阈值,则将该图片图像和文字图像判定为关联,标记相同的标记,反之则将该图片图像和文字图像判定为不关联,标记不同的标记;并对所述图片图像进行保存;
(S05)单独提取所述文字图像,并调节其亮度,使该文字图像中的文字与背景之间的对比度大于一设定阈值;
(S06)对调节亮度后的文字图像进行OCR识别,并以文本方式保存识别出的文字数据内容;
(S07)将分别提取所保存的具有相同标记的图片图像和文字数据,并将其重组为图文图像,用以代替其所对应的原始图文图像。
2.根据权利要求1所述的语言图文识别系统,其特征在于,还包括用于对标记后的图片图像信息进行压缩处理的图片压缩模块,该图片压缩模块压缩处理后的图片图像信息存储于所述图片临时存储模块中。
3.根据权利要求1所述的语言图文识别系统,其特征在于,还包括用于对标记后的图片图像信息进行灰度化的灰度处理模块,用于对灰度化后的图片图像信息进行轮廓图像检测的轮廓检测模块,用于对轮廓检测后的图像进行轮廓内外图像内容分割的轮廓分割模块,用于对轮廓分割后的轮廓内部图像进行检测并提取的细节图像提取模块,用于对所提取的轮廓图像和轮廓内部的细节图像进行组合的提取图像组合模块,用于对轮廓和轮廓内部细节图像组合后的图像进行识别的提取图像识别模块,以及用于将识别结果标注于预分割后的图片图像信息内的图像标注模块,其中,所述图像标注模块所标注的文字信息位于图片图像旁,并共同存储于所述图片临时存储模块中。
4.根据权利要求3所述的语言图文识别系统,其特征在于,所述图像标注模块所标注的文字信息为汉字。
5.根据权利要求1~4任一项所述的语言图文识别系统,其特征在于,将所述重组后的图文图像与其所对应的原始图文图像关联,存储于后台数据服务器中,并呈现该重组后的图文图像。
6.根据权利要求1~4任一项所述的语言图文识别系统,其特征在于,所述步骤(S04)中对所述图片图像保存前还判断该图片图像的尺寸大小,若其尺寸大小超过一设定阈值,则对该图片图像进行等比压缩,使其保存的尺寸大小不超过该设定阈值。
7.根据权利要求1~4任一项所述的语言图文识别系统,其特征在于,所述步骤(S04)中对所述图片图像保存前还对其进行识别处理,过程如下:
(S10)对该图片图像进行灰度化处理,获得图片灰度图像;
(S11)对该图片灰度图像进行轮廓检测,并以其轮廓为分界线将其划分为轮廓外区域和轮廓内区域;
(S12)提取轮廓内区域进行细节图像检测,获取轮廓内区域的细节图像;
(S13)将轮廓图像和所述细节图像组合为图片图像主体,并根据后台数据服务器中预存的图像数据进行对比识别;
(S14)将识别后的文字信息标注在该图片图像主体旁进行保存。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西南石油大学;成都信息工程大学;四川品亿科技有限公司,未经西南石油大学;成都信息工程大学;四川品亿科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811506145.3/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种字符手写识别方法及系统
- 下一篇:一种表格检测方法和装置