[发明专利]语言图文识别系统及其实现方法有效
申请号: | 201811506145.3 | 申请日: | 2018-12-10 |
公开(公告)号: | CN109858324B | 公开(公告)日: | 2022-10-21 |
发明(设计)人: | 朱西平;苏赋;汪敏;苟智坚;韩斌;李季;郑达;帅靖;杨朋 | 申请(专利权)人: | 西南石油大学;成都信息工程大学;四川品亿科技有限公司 |
主分类号: | G06V30/40 | 分类号: | G06V30/40;G06T7/13;G06T7/11 |
代理公司: | 成都众恒智合专利代理事务所(普通合伙) 51239 | 代理人: | 钟显毅 |
地址: | 610500 四*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 语言 图文 识别 系统 及其 实现 方法 | ||
本发明公开了一种语言图文识别系统,包括实体扫描装置,图像提取模块,边缘预识别模块,预分割模块,预标记模块,图片临时存储模块,亮度调节模块,OCR文字识别模块,文字临时存储模块,目标提取模块,图文重组模块,重组图文存储模块。本发明通过获取待分割图像的处理后的灰度图像,采用边缘检测算法,获取处理后的灰度图像中的边缘信息;根据边缘信息提取处理后的灰度图像中的初选目标;在灰度图像中提取初选目标所在的预设区域得到区域图像;对区域图像进行二值化处理得到二值图像;根据二值图像的初选目标,分别从初选目标中提取得到每个区域图像的目标。
技术领域
本发明涉及语言文化信息领域,具体地讲,是涉及一种语言图文识别系统。
背景技术
随着政治、经济、文化形势的国际化发展,国际社会需要并朝着国家和地区的区域合作方向迈进,例如以亚欧非大陆及附近海洋的互联互通为基础的区域合作,建立和加强沿线各国互联互通伙伴关系,构建全方位、多层次、复合型的互联互通网络,实现沿线各国多元、自主、平衡、可持续的发展。
区域合作沿线的国家和地区众多,多数国家和地区都拥有自己的语种和语言体系,随着区域合作的逐步推进,这些国家和地区需要进一步的促进经济、政治、文化的多方面深化发展,语言问题成为了影响各方面深入交流的最大阻碍,而且这些语言多为小语种,除当国当地的民众外,很少有其他人员会学习掌握这些语言。为了尽量减小语言问题对各方面合作推进的影响,申请人针对性地提出了一套多语言信息文化共享方案,通过搜集沿线各国语言文化信息,构建多语言文化数据库及数据共享系统,为广大民众提供相应的多语言文化信息内容的普及教育学习平台,促进区域合作的经济政治文化尤其是语言文化信息的发展。本申请作为系统前端处理部分,当存储系统获取到前端设备采集获取到的关于区域合作沿线的图像和文字信息资料后,对这些图文信息资料进行识别分类处理,以实现多语言信息采集后的图文信息处理归档,为后续的多语言学习系统提供基本数据材料。
发明内容
针对上述现有技术的不足,本发明提供一种语言图文识别系统。
为了实现上述目的,本发明采用的技术方案如下:
一种语言图文识别系统,包括用于从实体图文信息资料中获取原始图像数据的实体扫描装置,用于从后台数据服务器中获取原始图像数据的图像提取模块,用于原始图像进行边缘预识别的边缘预识别模块,用于将边缘预识别后的图像预分割为图片图像信息和文字图像信息的预分割模块,用于将分割后且相关联的图片图像信息和文字图像信息进行相同标记的预标记模块,用于对标记后的图片图像信息进行存储的图片临时存储模块,用于对标记后的文字图像进行亮度处理的亮度调节模块,用于对亮度处理后的文字图像进行识别的OCR文字识别模块,用于存储识别后的文字数据的文字临时存储模块,用于分别从图片临时存储模块和文字临时存储模块中提取具有相同标记的图片图像信息和文字数据的目标提取模块,用于将相同标记的图片图像和文字组合的图文重组模块,以及用于存储重组后的图文信息的重组图文存储模块。
进一步地,该语言图文识别系统,还包括用于对标记后的图片图像信息进行压缩处理的图片压缩模块,该图片压缩模块压缩处理后的图片图像信息存储于所述图片临时存储模块中。
进一步地,该语言图文识别系统,还包括用于对标记后的图片图像信息进行灰度化的灰度处理模块,用于对灰度化后的图片图像信息进行轮廓图像检测的轮廓检测模块,用于对轮廓检测后的图像进行轮廓内外图像内容分割的轮廓分割模块,用于对轮廓分割后的轮廓内部图像进行检测并提取的细节图像提取模块,用于对所提取的轮廓图像和轮廓内部的细节图像进行组合的提取图像组合模块,用于对轮廓和轮廓内部细节图像组合后的图像进行识别的提取图像识别模块,以及用于将识别结果标注于预分割后的图片图像信息内的图像标注模块,其中,所述图像标注模块所标注的文字信息位于图片图像旁,并共同存储于所述图片临时存储模块中。
并且,所述图像标注模块所标注的文字信息为汉字。
基于上述系统构造,本发明还提供了上述语言图文识别系统的实现方法,包括如下步骤:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西南石油大学;成都信息工程大学;四川品亿科技有限公司,未经西南石油大学;成都信息工程大学;四川品亿科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811506145.3/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种字符手写识别方法及系统
- 下一篇:一种表格检测方法和装置