[发明专利]一种列表识别方法与系统有效
申请号: | 201310455068.4 | 申请日: | 2013-09-29 |
公开(公告)号: | CN104517106B | 公开(公告)日: | 2017-11-28 |
发明(设计)人: | 许灿辉;汤帜;徐剑波;陶欣 | 申请(专利权)人: | 北大方正集团有限公司;北京方正阿帕比技术有限公司 |
主分类号: | G06K9/20 | 分类号: | G06K9/20;G06K9/62 |
代理公司: | 北京三聚阳光知识产权代理有限公司11250 | 代理人: | 寇海侠 |
地址: | 100871 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 列表 识别 方法 系统 | ||
技术领域
本发明涉及电子文档格式转换技术领域,具体地说是一种列表识别方法与系统。
背景技术
根据版式文档的生成过程,文档是数据和结构的集合,具体包括内容数据、物理结构和逻辑结构。文档分析是对文档物理结构进行抽取,而文档理解则是在物理结构和逻辑结构之间建立映射关系。在实际应用中,移动设备的可读性需求使物理和逻辑结构的恢复尤为重要。页面内列表的检测及识别是文档理解的重点之一。列表具有其独立的逻辑功能,需要对其进行物理划分和逻辑标签标定。但列表从视觉上与正文文本段的特征十分近似,且列表首行的前导符号变化多样,列表续行不具备明显的可区分性特征,根据规则的方法其识别效果不能满足实际需求。
列表是文档的重要组成部分,如何准确地识别列表及其列表中的内容,对版式文档的分析尤其重要。现有技术中有一些识别并转换版式文档中列表的方法,如使用一组规则来检测基于矢量图形的文档中的至少一个列表。模式检测逻辑标识可能开始列表的各字符、符号、数字、字母和/或图像。另外的模式检测逻辑确定列表是否存在。该系统可以标识和分析标项目符号的列表、标号的或标字母的列表、以及作为两者的任意组合的嵌套列表。该方案的不足在于没有考虑列表的邻域信息,邻域信息包括文本模式、缩进基本、标点、对齐等特征,当文档页面中存在多个列表时,该方案不能识别列表续行和列表首行的上下文关系,文档整体的识别效果不理想。
发明内容
为此,为此,本发明所要解决的技术问题在于现有技术中的列表识别方法不能识别列表续行和列表首行的上下文关系,从而提出一种可以识别列表首行和续行的基于概率图模型的列表识别方法。
为解决上述技术问题,本发明的提供一种列表识别方法与系统。
一种列表识别方法,包括以下步骤:
对原始版式文档内的元数据信息进行解析和分析,提取页面内基本图元;
对所述基本图元进行分割,提取页面内分割文本行,并得到分割片;
针对所述分割片构造出无向图;
根据所述基本图元的属性,检测前导符号的缩进特征;
根据所述缩进特征、所述分割片的局部特征以及分割片之间的邻域关系特征,训练学习模型,获得模型参数,建立列表识别模型;
调用所述列表识别模型对所需的文档进行列表识别,得到识别结果。
所述的列表识别方法,所述根据所述缩进特征、所述分割片的局部特征以及分割片之间的邻域关系特征,训练学习模型,获得模型参数,建立列表识别模型的过程中,所述学习模型为条件随机场模型,过程包括:
提取所述无向图中每个分割片的局部特征,进行分类,然后将分类得分转化为伪概率,作为条件随机场模型的一元特征函数;
根据无向图邻域关系,提取分割片之间的邻域关系特征作为二元特征函数。
所述的列表识别方法,所述对所述基本图元进行分割,提取页面内分割文本行,并得到分割片的过程中,将文本行中连续的文本分割到一个分割片中。
所述的列表识别方法,所述提取页面内分割文本行时,采用聚类方法。
所述的列表识别方法,在所述针对所述分割片构造出无向图的过程中,根据所述分割片的邻域关系构造无向图。
所述的列表识别方法,在所述构造无向图的过程中,采用最小生成树方法构造无向图。
所述的列表识别方法,所述根据所述基本图元的属性,检测前导符号的缩进特征的过程,包括检测所述前导符号缩进级别、缩进量以及与其他前导符号缩进是否一致。
所述的列表识别方法,所述分割片的局部特征包括分割片的长宽比、归一化面积、缩进级别、图像纹理特征。
所述的列表识别方法,所述提取所述无向图中每个分割片的局部特征,进行分类,然后将分类得分转化为伪概率的过程,包括:通过SVM分类器进行分类,选择RBF径向基核函数,将分类得分转化为伪概率。
所述的列表识别方法,所述缩进特征包括前导符号缩进级别、缩进量以及与其他前导符号缩进是否一致。
一种列表识别系统,包括:
提取单元:对原始版式文档内的元数据信息进行解析和分析,提取页面内基本图元;
分割单元:对所述基本图元进行分割,提取页面内分割文本行,并得到分割片;
构造单元:针对所述分割片构造出无向图;
检测单元:根据所述基本图元的属性,检测前导符号的缩进特征;
建模单元:根据所述缩进特征、所述分割片的局部特征以及分割片之间的邻域关系特征,训练学习模型,获得模型参数,建立列表识别模型;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北大方正集团有限公司;北京方正阿帕比技术有限公司,未经北大方正集团有限公司;北京方正阿帕比技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310455068.4/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种二维码图像的二值化方法及系统
- 下一篇:一种图像识别传感器定位系统