[发明专利]公式识别方法和装置有效
申请号: | 201510064672.3 | 申请日: | 2015-02-06 |
公开(公告)号: | CN104636741B | 公开(公告)日: | 2018-04-13 |
发明(设计)人: | 吴仑;王岩;梁爽;陈恭明;邹静 | 申请(专利权)人: | 百度在线网络技术(北京)有限公司 |
主分类号: | G06K9/20 | 分类号: | G06K9/20;G06K9/54 |
代理公司: | 北京清亦华知识产权代理事务所(普通合伙)11201 | 代理人: | 宋合成 |
地址: | 100085 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 公式 识别 方法 装置 | ||
1.一种公式识别方法,其特征在于,包括:
对图像版面进行扭曲矫正;
对矫正后的图像版面中的基本元素进行分割,根据所述图像版面中基本元素的特征确定所述基本元素所在区域为公式区域;
根据公式符号对所述公式区域进行公式识别;
其中,所述对图像版面进行扭曲矫正包括:
获得图像版面中文本行的中心线,在所述图像版面中每一基本元素的位置上对所述文本行的中心线进行微调,以使所述文本行的中心线逼近直线,完成对所述图像版面的扭曲矫正;
所述获得图像版面中文本行的中心线包括:
将所述图像版面在垂直方向上平均划分为至少两列;
对每一列在水平方向上进行投影,统计每一列在水平方向上的投影密度,生成每一列的密度分布函数,并获得每一列的密度分布函数的极大值点;
按照预定的顺序,对于相邻的两列,计算左边列的每个极大值点与右边列的每个极大值点的第一差值,以及计算右边列的每个极大值点与左边列的每个极大值点的第二差值;
获得第一极大值点的第一差值与第一极大值点的第二差值,所述第一极大值点的第一差值为所述左边列的第一极大值点与所述右边列的第一极大值点的差值,所述第一极大值点的第二差值为所述右边列的第一极大值点与所述左边列的第一极大值点的差值;
如果所述第一极大值点的第一差值与所述第一极大值点的第二差值之差的绝对值小于或等于第一阈值,则确定所述左边列的第一极大值点与所述右边列的第一极大值点在同一行内,连接所述左边列的第一极大值点与所述右边列的第一极大值点;
依次连接所述至少两列中位于同一行内的极大值点,获得所述图像版面中文本行的中心线。
2.根据权利要求1所述的方法,其特征在于,所述根据所述图像版面中基本元素的特征确定所述基本元素所在区域为公式区域包括:
当所述基本元素的缩进量大于第二阈值,所述基本元素的行密度小于第三阈值,并且所述基本元素的前后质心偏移大于第四阈值时,确定所述基本元素所在区域为公式区域。
3.根据权利要求1所述的方法,其特征在于,所述根据所述图像版面中基本元素的特征确定所述基本元素所在区域为公式区域包括:
当所述基本元素的前后质心偏移大于第五阈值,所述基本元素的溢出行基线的程度大于第六阈值,并且所述基本元素的宽高比例小于第七阈值时,确定所述基本元素所在区域为公式疑似区域;
如果与所述基本元素所在区域相邻的前后至少两个基本元素所在区域均为公式疑似区域,则确定所述基本元素所在区域为公式区域。
4.根据权利要求3所述的方法,其特征在于,所述确定所述基本元素所在区域为公式疑似区域之后,还包括:
如果与所述基本元素所在区域相邻的基本元素所在区域不是公式疑似区域,则对所述相邻的基本元素进行单字识别,如果所述相邻的基本元素是文字的置信度大于第八阈值,则确定所述基本元素所在区域为公式区域;如果所述相邻的基本元素是文字的置信度小于或等于第九阈值,则确定所述基本元素所在区域以及与所述基本元素所在区域相邻的基本元素所在区域均为公式区域。
5.根据权利要求1所述的方法,其特征在于,所述根据公式符号对所述公式区域进行公式识别包括:
根据公式符号对所述公式区域进行划分,获得至少两个公式子区域,对每一公式子区域进行公式单字识别,根据识别结果和所述至少两个公式子区域的位置关系完成公式的解析。
6.根据权利要求1-5任意一项所述的方法,其特征在于,所述对图像版面进行扭曲矫正之前,还包括:
采用自适应的阈值方法消除图像版面中由于光照不均匀产生的噪声,以及利用图像增强技术和形态学方法对所述图像版面进行图像增强。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于百度在线网络技术(北京)有限公司,未经百度在线网络技术(北京)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510064672.3/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种号牌识别的方法及装置
- 下一篇:测量数据电子化装置和测量数据电子化方法