[发明专利]一种书脊文字识别方法有效
申请号: | 201911228322.0 | 申请日: | 2019-12-04 |
公开(公告)号: | CN111091124B | 公开(公告)日: | 2022-06-03 |
发明(设计)人: | 孙大洋;许文巍;刘丹;万达禹 | 申请(专利权)人: | 吉林大学 |
主分类号: | G06V10/24 | 分类号: | G06V10/24;G06V20/62;G06V10/26;G06V10/44;G06V10/764;G06V10/82;G06K9/62;G06N3/04;G06N3/08 |
代理公司: | 重庆百润洪知识产权代理有限公司 50219 | 代理人: | 陈万江 |
地址: | 130000 吉*** | 国省代码: | 吉林;22 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 书脊 文字 识别 方法 | ||
1.一种书脊文字识别方法,其特征在于,包括:
步骤一,利用图像获取装置获取文本图像,使用卷积神经网络识别书脊区域,进一步识别该书脊区域中的所有文字区域;
步骤二,图像处理,对图像进行二值化处理,对二值化后的图像进行降噪处理并倾斜校正;
步骤三,图像特征提取及特征匹配,判断文字区域的排列方向是横排还是竖排,根据判断结果分别给出识别方法;当排列方向为竖排时,进一步判断单个文字是横向放置或是竖向放置或是整体横向放置;当单个文字是竖向放置时,不旋转文字,将从上到下的文字顺序,改为从左到右的文字顺序,进行文字图像拼接,对拼接后的文字区域进行与字典匹配的文字识别;当单个文字是横向放置时,需对每个字符进行正或负90度的选择,使其变成竖文字后,改为从左到右的文字顺序,进行文字图像拼接,对拼接后的文字区域进行与字典匹配的文字识别;当整体横向放置时,先将整体竖区域进行正或负90度旋转,使其变成横区域的文字,再进行与字典匹配的文字识别;
步骤四,根据对书脊区域识别出来的各区域文字,保存为文字串格式,再与数据库信息进行智能化匹配,进行检索操作。
2.根据权利要求1所述的书脊文字识别方法,其特征在于:采用区域字符的平均识别准确率所属范围来确定该区域字符是横向还是竖向,当区域字符的平均识别准确率低于75%时,则判断该字符为横向放置,当区域字符的平均识别准确率大于等于75%时,则判断该字符为竖向放置。
3.根据权利要求1所述的书脊文字识别方法,其特征在于:对图像进行二值化处理,包括将文字的笔画信息从复杂的背景中分离出来,抛去掉无关信息,获得便于后续处理的二值图像,对二值化后的图像进行降噪处理,包括保留图像的主要特征的同时,去掉影响后续处理的无用噪声信息。
4.根据权利要求2所述的书脊文字识别方法,其特征在于:对于竖向放置的文字,对单个字符的上下界进行搜索,以切分出单个汉字和其他符号,对已标记的文本行进行水平投影,将字与字之间的空隙引起的投影空白之间的距离进行排序,取距离排序中值与投影空白进行匹配对各个字符加以分割,并进行标记。
5.根据权利要求2所述的书脊文字识别方法,其特征在于:对于横向放置的文字,在同样的进行字切割的步骤后,需对每个字符进行正或负90度的选择,使其变成竖文字后,改为从左到右的文字顺序,进行文字图像拼接,对拼接后的文字区域使用已有文字识别方法进行与字典匹配的文字识别。
6.根据权利要求1所述的书脊文字识别方法,其特征在于:所述卷积神经网络使用了共享权值和局部互连的方式,提取文字图像的形状、颜色、纹理和拓扑结构;并能对文字图像的旋转、位移、缩放及扭曲进行精确识别。
7.根据权利要求1所述的书脊文字识别方法,其特征在于:与字典匹配的过程为:通过卷积神经网络对书籍文字图像进行低维特征提取,将得到的低维特征向量与存储在字典数据库中的文本进行搜索并匹配,得到多个相似的匹配结果后,再通过卷积神经网络对书籍文字图像进行高维特征提取,将获得的高维特征向量再次与所述多个相似的匹配结果进行对比后,确定最终的匹配结果。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于吉林大学,未经吉林大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911228322.0/1.html,转载请声明来源钻瓜专利网。