[发明专利]一种藏文古籍文档的行切分方法及系统有效
申请号: | 201711206538.8 | 申请日: | 2017-11-27 |
公开(公告)号: | CN107944451B | 公开(公告)日: | 2020-04-24 |
发明(设计)人: | 王维兰;周枫明 | 申请(专利权)人: | 西北民族大学 |
主分类号: | G06K9/34 | 分类号: | G06K9/34;G06K9/38;G06T5/00;G06T7/12;G06T7/187 |
代理公司: | 北京高沃律师事务所 11569 | 代理人: | 王戈 |
地址: | 730000 甘肃省兰州市*** | 国省代码: | 甘肃;62 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 藏文 古籍 文档 切分 方法 系统 | ||
本发明公开一种藏文古籍文档的行切分方法及系统。该方法包括:获取藏文古籍文档版面处理后的二值图像;获取二值图像中文字区域每个连通域的重心坐标,生成坐标集合;一个连通域为二值图像中一个连通的字符笔划;获取坐标集合中同一行中第i个重心坐标和第i+1个重心坐标的纵坐标的差值;其中i≥1,每一行包括多个连通域;判断差值是否小于设定阈值;当差值小于设定阈值时,连接第i个重心坐标和第i+1个重心坐标,得到行连通域;获得行连通域的轮廓曲线;根据轮廓曲线,将二值图像中对应的像素映射至空白图像中,得到行切分后的图像。采用本发明的方法及系统,在切分某一行时将相邻两行有交错的部分,不会一起切分到目标行,大大提高了切分的效率。
技术领域
本发明涉及古籍文档的自动化处理领域,特别是涉及一种藏文古籍文档的行切分方法及系统。
背景技术
藏文文献浩如烟海,其数量仅次于汉文文献,且形式多样,有木刻本、线装本、手抄本、铅印本以及壁画文字等等,具有很高的研究价值。其中藏文古籍乌金体,主要是通过木刻方式将乌金体藏文印制在纸上。这类古籍是珍贵的文化遗产,需要利用科学技术从不同的科学领域去分析与保护。众多方法中,利用计算机对古籍图像文档进行自动化处理是数字化保护很好的选择。然而,古籍文档的自动化处理面临众多的挑战,如文档图像的版面分析、行切分、字切分、识别以及检索等。
对于图像文档进行版面分析与处理后,进一步获取文本行即行切分是一个关键的步骤。而藏文古籍乌金体木刻版经书为人工篆刻,人为因素干扰严重,再通过特殊的藏纸印刷,加上油墨的干扰,木刻字体的风格与图像文档的质量等,增加了图像文本行切分的难度。藏文乌金体古籍字符的上元音与下元音(或叠加的最下边字符)缩短了行与行之间的距离,通常的投影或外接矩形框的办法无法实现行的切分,甚至有些行的上下字符粘连,使文本行切分更加困难。又由于年代久远、时常的翻阅、频繁的处理以及贮藏的条件限制,都会使纸质版的古籍受损,形成的图像文档通常质量较差,如:大量的噪声、断裂的笔画等,这些因素都使文本行切分的过程变得更加复杂。因此木刻版的图像版面分析以及行切分比印刷体文档更具有挑战性。
现有技术中,大量方法进行行切分时利用外接矩形框进行分割,但在相邻两行之间文字笔画有交错、粘连的部分时,利用一行的外接矩形框切分会使行的边界混乱,将不属于目标行的部分一起切分进来。如果再利用其他方法处理这种情况,会增加时间的消耗,使文档分析的效率低下。并且在相邻行之间的附加符号的归属问题上,又将引出新的问题,增加整个算法的时间复杂度。因此,现有的行切分方法的切分效率低。
发明内容
本发明的目的是提供一种藏文古籍文档的行切分方法及系统,以提高行切分的切分效率。
为实现上述目的,本发明提供了如下方案:
一种藏文古籍文档的行切分方法,所述方法包括:
获取藏文古籍文档版面处理后的二值图像;
获取所述二值图像中文字区域每个连通域的重心坐标,生成坐标集合;一个所述连通域为所述二值图像中一个连通的字符笔划;
获取所述坐标集合中同一行中第i个重心坐标和第i+1个重心坐标的纵坐标的差值;其中i≥1,每一行包括多个所述连通域;
判断所述差值是否小于设定阈值,得到第一判断结果;
当所述第一判断结果表示所述差值小于设定阈值时,连接所述第i个重心坐标和第i+1个重心坐标,得到行连通域;所述行连通域上包括多个所述连通域和所述连通域的重心坐标;
获得所述行连通域的轮廓曲线;
根据所述轮廓曲线,将所述二值图像中对应的像素映射至空白图像中,得到行切分后的图像。
可选的,所述获取所述二值图像中文字区域每个连通域的重心坐标,生成坐标集合,具体包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西北民族大学,未经西北民族大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711206538.8/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种车牌识别方法及装置
- 下一篇:一种圆形印章文字识别方法