[发明专利]版式文档中复合图的提取装置和提取方法有效
申请号: | 201310343908.8 | 申请日: | 2013-08-08 |
公开(公告)号: | CN104346615B | 公开(公告)日: | 2019-02-19 |
发明(设计)人: | 许灿辉;汤帜;陶欣;史操 | 申请(专利权)人: | 北大方正集团有限公司;北京方正阿帕比技术有限公司;北京大学 |
主分类号: | G06K9/46 | 分类号: | G06K9/46 |
代理公司: | 北京友联知识产权代理事务所(普通合伙) 11343 | 代理人: | 尚志峰;汪海屏 |
地址: | 100871 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 版式 文档 复合 提取 装置 方法 | ||
1.一种版式文档中复合图的提取装置,其特征在于,包括:
文档解析单元,用于对所述版式文档进行解析,确定构成所述版式文档的图元及所述图元的类型;
图层生成单元,用于提取文字图元以构成文字图层,并利用其余的非文字图元构成非文字图层;
版面分析单元,用于分别对所述文字图层和所述非文字图层进行版面分析处理;
区块生成单元,用于根据所述版面分析单元的版面分析处理结果,生成所述文字图层中的文字区块和所述非文字图层中的图像区块;
关联区块确定单元,用于确定与每个所述图像区块相关联的文字区块,以合并为复合图区块;
标识存储单元,用于存储所述复合图区块包含的所有图元的标识;
所述版面分析单元包括:
纹理特征获取子单元,用于获取所述非文字图层中的非文字图元的纹理特征;
连通区域检测子单元,用于根据所述纹理特征以及预设的特征阈值,检测出所述非文字图层中连通的非文字对象区域;
图像区块生成子单元,对于多个所述连通的非文字对象区域,在对应的最小外接矩形相交或间隔距离小于预设距离的情况下,用于将多个所述连通的非文字对象区域作为区域集合,并将所述区域集合的最小外接矩形作为所述图像区块。
2.根据权利要求1所述的版式文档中复合图的提取装置,其特征在于,所述版面分析单元包括:
聚类处理子单元,用于对所述文字图层中的文字图元进行聚类处理,以对所述文字图元进行分类;
文字区块生成子单元,对于同类别的多个文字图元,在对应的最小外接矩形相交或间隔距离小于预设距离的情况下,用于将所述多个文字图元作为文字图元集合,并将所述文字图元集合的最小外接矩形作为一个所述文字区块。
3.根据权利要求1所述的版式文档中复合图的提取装置,其特征在于,所述版面分析单元还包括:
孔洞填补子单元,用于对所述连通的非文字对象区域中存在的孔洞进行填补。
4.根据权利要求1所述的版式文档中复合图的提取装置,其特征在于,所述关联区块确定单元包括:
位置关系检测子单元,用于检测所述图像区块与所述文字区块之间的位置关系,其中,若指定图像区块与至少一个文字区块相交,或所述指定图像区块与所述至少一个文字区块的间隔距离小于预设距离,则判定所述至少一个文字区块与所述指定图像区块相关联。
5.根据权利要求1至4中任一项所述的版式文档中复合图的提取装置,其特征在于,还包括:
图像生成单元,用于将所述复合图区块生成为图像文件;
图像保存单元,用于保存所述图像文件。
6.一种版式文档中复合图的提取方法,其特征在于,包括:
对所述版式文档进行解析,确定构成所述版式文档的图元及所述图元的类型;
提取文字图元以构成文字图层,并利用其余的非文字图元构成非文字图层;
分别对所述文字图层和所述非文字图层进行版面分析处理,以生成所述文字图层中的文字区块和所述非文字图层中的图像区块;
确定与每个所述图像区块相关联的文字区块,以合并为复合图区块;
存储所述复合图区块包含的所有图元的标识;
所述非文字图层进行版面分析处理的步骤包括:
获取所述非文字图层中的非文字图元的纹理特征,并根据预设的特征阈值,检测出所述非文字图层中连通的非文字对象区域,其中,
对于多个所述连通的非文字对象区域,若对应的最小外接矩形相交或间隔距离小于预设距离,则将多个所述连通的非文字对象区域作为区域集合,并将所述区域集合的最小外接矩形作为所述图像区块。
7.根据权利要求6所述的版式文档中复合图的提取方法,其特征在于,对所述文字图层进行版面分析处理的步骤包括:
对所述文字图层中的文字图元进行聚类处理,以对所述文字图元进行分类,其中,
对于同类别的多个文字图元,若对应的最小外接矩形相交或间隔距离小于预设距离,则将所述多个文字图元作为文字图元集合,并将所述文字图元集合的最小外接矩形作为一个所述文字区块。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北大方正集团有限公司;北京方正阿帕比技术有限公司;北京大学,未经北大方正集团有限公司;北京方正阿帕比技术有限公司;北京大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310343908.8/1.html,转载请声明来源钻瓜专利网。