[发明专利]提取表格特征的方法及装置有效
申请号: | 201310013028.4 | 申请日: | 2013-01-14 |
公开(公告)号: | CN103093227A | 公开(公告)日: | 2013-05-08 |
发明(设计)人: | 余建桥;况远春;郭加旋;胡迎春 | 申请(专利权)人: | 西南大学 |
主分类号: | G06K9/46 | 分类号: | G06K9/46;G06K9/20 |
代理公司: | 北京海虹嘉诚知识产权代理有限公司 11129 | 代理人: | 谢殿武 |
地址: | 400715*** | 国省代码: | 重庆;85 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 提取 表格 特征 方法 装置 | ||
技术领域
本发明涉及表格处理技术领域,尤其涉及一种提取表格特征的方法及装置。
背景技术
目前,将通过扫描仪等设备扫入系统的表格图像进行分类存储时,表格类型的识别通常是由工作人员来实现的。为此,本发明的发明人提出了一种自动识别表格类型的方法,以进行分类存储,在该方法中十分重要的一步就是从表格中提取表格特征来标识表格的类型;而本发明就是在上述基础上,关于选取什么样的特征作为标识表格类型的特征,如何提取这样的特征的方案。
发明内容
有鉴于此,本发明提供了一种提取表格特征的方法及装置。可以快速、准确地从表格中提取出标识表格类型的图像特征。
本发明提供了一种提取表格特征的方法,包括如下步骤:
步骤a、对表格进行预处理;
步骤b、从预处理后的表格中提取标识表格类型的图像特征。
进一步,所述标识表格类型的图像特征包括:SUMX、SUMA、SUMB、SUMC、SUMD和SUME,SUMX表示表格中中轴线条数,SUMA、SUMB、SUMC和SUMD分别表示A、B、C和D四个区域内的中轴线条数,SUME表示矩形区域E内的中轴线条数,其中A、B、C和D四个区域为在表格的宽和高的中点处,将表格分为的2行2列的四个面积相等的区域,矩形区域E与表格有相同的中心,且宽和高均为表格的宽和高的三分之一。
进一步,所述步骤b包括:
步骤b1、从预处理后的表格中提取水平线段和垂直线段,且所述步骤b1包括:
对表格以水平方向直线线段结构元素在水平方向上腐蚀,然后以膨胀结构元素为模板在垂直方向上进行膨胀,水平方向直线线段结构元素的长度值为表格的宽度的五分之三;
对表格以垂直方向直线线段结构元素在垂直方向上腐蚀,然后以所述膨胀结构元素为模板在水平方向上进行一次膨胀,垂直方向直线线段结构元素的长度值为表格的单元格高度的七分之五。
进一步,所述步骤b还包括:
步骤b2、合并步骤b1提取的水平线段和垂直线段得到表格框架;
步骤b3、对步骤b2得到的表格框架依次进行取反和细化处理;
步骤b4、从步骤b4处理后的表格框架中提取标识表格类型的图像特征。
进一步,所述步骤b4包括:
步骤b41、计算细化后的表格框架中的中轴线条数SUMX;
步骤b42、计算表格的宽和高,在宽和高的中点处,把表格分成2行2列的四个面积相等的区域:A、B、C和D,并计算A、B、C和D四个局域内的中轴线的条数分别为:SUMA、SUMB、SUMC和SUMD;
步骤b43、在表格内部选取一个矩形区域E,该矩形区域E和表格有相同的中心,且高和宽为表格的高和宽的三分之一,并计算该矩形区域E内中轴线的条数SUME。
相应地,本发明还提供了一种提取表格特征的装置,包括:
预处理模块,用于对表格进行预处理;
特征提取模块,用于从预处理后的表格中提取标识表格类型的图像特征。
进一步,所述特征提取模块提取的标识表格类型的图像特征包括:SUMX、SUMA、SUMB、SUMC、SUMD和SUME,SUMX表示表格中中轴线条数,SUMA、SUMB、SUMC和SUMD分别表示A、B、C和D四个区域内的中轴线条数,SUME表示矩形区域E内的中轴线条数,其中A、B、C和D四个区域为在表格的宽和高的中点处,将表格分为的2行2列的四个面积相等的区域,矩形区域E与表格有相同的中心,且宽和高均为表格的宽和高的三分之一。
进一步,所述特征提取模块包括:
线段提取单元,用于从预处理后的表格中提取水平线段和垂直线段,且所述线段提取单元具体用于:
对表格以水平方向直线线段结构元素在水平方向上腐蚀,然后以膨胀结构元素为模板在垂直方向上进行膨胀,水平方向直线线段结构元素的长度值为表格的宽度的五分之三;
对表格以垂直方向直线线段结构元素在垂直方向上腐蚀,然后以所述膨胀结构元素为模板在水平方向上进行一次膨胀,垂直方向直线线段结构元素的长度值为表格的单元格高度的七分之五。
进一步,所述特征提取模块还包括:
线段合并单元用于合并线段提取模块提取的水平线段和垂直线段,得到表格框架;
取反和细化处理单元,用于对线段合并单元得到的表格框架依次进行取反和细化处理;
特征提取单元,用于从取反和细化处理单元处理后的表格框架中提取标识表格类型的图像特征。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西南大学,未经西南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310013028.4/2.html,转载请声明来源钻瓜专利网。