[发明专利]一种基于块投影的藏文历史文献文本区域提取方法有效

专利信息
申请号: 201710836675.3 申请日: 2017-09-17
公开(公告)号: CN107862310B 公开(公告)日: 2021-10-26
发明(设计)人: 段立娟;张西群 申请(专利权)人: 北京工业大学
主分类号: G06K9/20 分类号: G06K9/20;G06K9/32;G06K9/38;G06K9/46
代理公司: 北京思海天达知识产权代理有限公司 11203 代理人: 刘萍
地址: 100124 *** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要: 发明涉及一种基于块投影的藏文历史文献文本区域提取方法。将采集的藏文历史文献图像预处理;将图像平分为N*N的图像块,利用连通区域的分类信息和角点密度信息对图像块进行过滤;通过分析过滤后的图像块的投影可以定位到文本区域的近似边界位置;通过文本区域的近似边界位置搜索文本区域的边缘;通过文本区域边缘矫正策略矫正文本区域边缘,得到较完整、规则的文本区域。本发明利用块投影,可以准确的定位出文本区域的位置、增强不同文本区域之间的间隔;本发明实现了藏文历史文献的文本区域提取,方法简单、高效、易于实现。实验表明,在较大的文本区域和较小的文本区域的像素精度阈值分别设为95%和90%的情况下,准确率为75.50%,召回率为98.11%,F值为85.33%。
搜索关键词: 一种 基于 投影 藏文 历史文献 文本 区域 提取 方法
【主权项】:
一种基于块投影的藏文历史文献文本区域提取方法,其特征在于,包括以下步骤:步骤1,采集数据;通过扫描设备或拍照设备对藏文历史文献进行扫描或拍照,获得藏文历史文献的图像;步骤2,数据预处理;步骤2.1,光照均衡;将采集到的藏文历史文献的图像进行Gamma矫正,消除在获取图片的过程中产生的光照不均衡的影响;步骤2.2,倾斜矫正;将步骤2.1得到的藏文历史文献图像进行灰度化处理;然后再利用基于Hough变换的倾斜矫正方法将图像进行倾斜矫正;步骤2.3,二值化;利用Otsu算法,将步骤2.2得到的图像进行二值化,得到藏文历史文献的二值化图像;步骤3,块投影;对二图像中的连通区域进行分类和角点检测,然后利用连通区域的分类信息和角点信息对均分为N*N的图像块进行过滤,计算过滤后图像块的垂直和水平投影;步骤4,文本区域边缘提取;过滤后的图像块不但定位出近似的文本区域的位置,而且突出不同文本区域之间的间隔;通过分析块投影,得到文本区域边缘的近似位置;分析策略如下:策略一:搜索图像块水平投影,找到水平投影两端的第一个投影值从零到非零变化的点,分别表示为hb,he;把hb,he作为当前文档图像文本区域的近似水平起始位置和水平结束位置;策略二:搜索图像块垂直投影,找到垂直投影的一对投影值从零到非零和从非零到零的变化点,分别表示为vb,ve;把vb,ve作为当前文档图像的一个文本区域的近似垂直起始位置和垂直结束位置;利用文本区域的近似水平、垂直起始和结束位置,由内向外搜索文本区域的四个边的所有从文本类或背景像素变化为边框像素的第一个像素点,记录下来这些点,作为该文本区域的近似边缘;如果搜索过程中,没有搜索到像素点,则认为此处为断裂部分,其边缘像素点的纵或横坐标用其相邻的点的纵坐标或横坐标填充;该文本区域的近似边缘搜索完毕后,则从ve开始继续搜索图像块的垂直投影,寻找下一个文本区域,直到搜索完图像块垂直投影;通过策略一和策略二对块投影的分析,被提取出了文本区域的边缘;步骤5,文本区域边缘矫正;对步骤4中得到的文本区域的近似边缘进行矫正;矫正步骤如下:以文本区域的上边缘为例,说明矫正步骤;步骤一:计算文本区域上边缘点的纵坐标的平均值,表示为avo;步骤二:从左至右搜索上边缘的点,如果某个点的纵坐标与其前面的边缘点的纵坐标的差大于bt,且此点的纵坐标大于avo,则此点的纵坐标用其前面的边缘点的纵坐标代替;对其他边缘也按上述步骤做相应的矫正操作,然后根据矫正后的边缘把缺失的点根据步骤4相似的搜索方式补全。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京工业大学,未经北京工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201710836675.3/,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top