[发明专利]一种基于块投影的藏文历史文献文本区域提取方法有效
申请号: | 201710836675.3 | 申请日: | 2017-09-17 |
公开(公告)号: | CN107862310B | 公开(公告)日: | 2021-10-26 |
发明(设计)人: | 段立娟;张西群 | 申请(专利权)人: | 北京工业大学 |
主分类号: | G06K9/20 | 分类号: | G06K9/20;G06K9/32;G06K9/38;G06K9/46 |
代理公司: | 北京思海天达知识产权代理有限公司 11203 | 代理人: | 刘萍 |
地址: | 100124 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 投影 藏文 历史文献 文本 区域 提取 方法 | ||
本发明涉及一种基于块投影的藏文历史文献文本区域提取方法。将采集的藏文历史文献图像预处理;将图像平分为N*N的图像块,利用连通区域的分类信息和角点密度信息对图像块进行过滤;通过分析过滤后的图像块的投影可以定位到文本区域的近似边界位置;通过文本区域的近似边界位置搜索文本区域的边缘;通过文本区域边缘矫正策略矫正文本区域边缘,得到较完整、规则的文本区域。本发明利用块投影,可以准确的定位出文本区域的位置、增强不同文本区域之间的间隔;本发明实现了藏文历史文献的文本区域提取,方法简单、高效、易于实现。实验表明,在较大的文本区域和较小的文本区域的像素精度阈值分别设为95%和90%的情况下,准确率为75.50%,召回率为98.11%,F值为85.33%。
技术领域
本发明涉及文档分析研究中的文本提取方法,特别是涉及藏文历史文献的文本区域提取方法。
背景技术
近年来,随着人们对传统历史文化的保护和传承越来越重视,研究人员对历史文献数字化的兴趣也越来越高涨。
藏族是一个拥有丰富传统文化的民族,是中华灿烂文明不可或缺的重要组成部分。藏文历史文献是藏族传统文化宝库中一颗璀璨的明珠,其作为承载藏族古老文明的载体,受到了历史学家、语言学家、佛学家、文献学家的广泛关注。一直以来,中央政府非常重视藏文历史文献及文物的保护及发掘,先后多次进行了藏族文物历史文献的收集和保护工作;但是,藏文历史文献的研究和发展现状仍然不容乐观。现在对藏文历史文献的保护主要停留在存放保护阶段,大部分的藏文历史文献被保存在博物馆、庙宇或研究院的库房中,只有部分根据需要,以人工输入、扫描、拍照等电子化手段进行保存,以供研究。这种方式存在耗费大量人力物力、传输流通不便、不能对藏文历史文献内容充分挖掘和利用等问题。历史文献的研究与保护也存在着矛盾,在研究藏文历史文献的过程中,无法避免对历史文献的触摸以及翻动,这些正常的行为对有着几百年甚至上千年历史的文献来说,可能是致命的。而采用数字化的方法对藏文历史文献图像进行自动的版面分析和文本区域提取,将文献内容转化为数字化的文本存储,可以大大提高对藏文历史文献的利用效率;可以大批量的远距离在线浏览和传输,实现资源的共享;能够在妥善保存原件的基础上,实现对藏文历史文献的充分研究和传承。因此,采用数字化技术对现有的藏文历史文献中的文本部分进行自动识别并转化为数字形式存储,对藏族历史文化的研究、保护和传承具有非常重要的意义。
文本提取是历史文献数字化过程中重要的基础步骤。文本提取在文献分析和识别领域也是一个长期存在的问题,在过去的几十年中,国内外的研究者针对印刷或手写的历史文献提出了许多不同的文本提取方法,文本提取方法多依赖于所处理文献的版面特点,通常针对不同的文献版面布局使用特定的算法。此外,现有的文本提取方法主要用来处理一些主流语言(如:中文,英文,法语等)的历史文献,很少有针对少数民族语言历史文献特点的文本提取方法提出。由于藏文文字的特点,藏文历史文献中相邻行之间以及文字和边框之间通常会有粘连的情况发生;由于历史悠久藏文历史文献版面结构也较为复杂,文献中的边框、线段通常会弯曲、倾斜、断裂;所以和其他历史文献相比对藏文历史文献进行文本区域提取是一项复杂的任务。
发明内容
针对藏文文字和藏文历史文献版面的特点,本发明提出一种基于块投影的藏文历史文献文本区域提取方法。该方法利用连通区域信息和角点信息,先将平分的图像块进行过滤;然后通过分析过滤后的图像块的投影,定位出文本区域的近似位置;再通过搜索策略得到文本区域的边缘;最后,矫正文本区域的边缘部分来消除粘连带来的影响,从而得到了较完整、规则的文本区域。
实现本发明方法的主要思路是:将采集的藏文历史文献图像预处理;将图像平分为N*N的图像块,利用连通区域的分类信息和角点密度信息对图像块进行过滤;通过分析过滤后的图像块的投影可以定位到文本区域的近似边界位置;通过文本区域的近似边界位置搜索文本区域的边缘;通过文本区域边缘矫正策略矫正文本区域边缘,得到较完整、规则的文本区域。
一种基于块投影的藏文历史文献文本区域提取方法,包括如下步骤:
(1)采集数据
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京工业大学,未经北京工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710836675.3/2.html,转载请声明来源钻瓜专利网。
- 上一篇:锂电池极片双料带高速模切机
- 下一篇:自动识别行车状态的方法及其系统