[发明专利]一种版式文档中的含线表格信息提取方法在审
申请号: | 201910743582.5 | 申请日: | 2019-08-13 |
公开(公告)号: | CN110688825A | 公开(公告)日: | 2020-01-14 |
发明(设计)人: | 张诗玉;徐剑波;王磊 | 申请(专利权)人: | 北京众信博雅科技有限公司 |
主分类号: | G06F40/177 | 分类号: | G06F40/177;G06F40/18 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 100000 北京市海淀*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明涉及本发明涉及一种版式文档中的含线表格信息提取方法,包括以下步骤:步骤一、解析版式文档,逐页获取页面信息及页面中文字块和直线信息;步骤二、对各页的直线进行合并;步骤三、连续页拼接,将所有页面拼接,最终整个版式文件获得一个虚拟页;步骤四、提取表格所在位置和表格中直线信息;步骤五、结合文字块和表格线提取表格中各单元格内容和位置信息;步骤六、表格单元格的组织结构分析,本发明能有效提高表格的识别效果,尤其是不规则表格,减少了版式文档排版识别、转换的困难,有助于提高版式文档解析的效率和效果。 | ||
搜索关键词: | 版式文档 直线信息 拼接 页面 解析 组织结构分析 表格单元格 单元格内容 版式文件 表格信息 页面信息 不规则 表格线 文字块 逐页 字块 排版 虚拟 合并 转换 中文 | ||
【主权项】:
1.一种版式文档中的含线表格信息提取方法,包括以下步骤:步骤一、解析版式文档,逐页获取页面信息及页面中文字块和直线信息;步骤二、对各页的直线进行合并;步骤三、连续页拼接,将所有页面拼接,最终整个版式文件获得一个虚拟页;步骤四、提取表格所在位置和表格中直线信息;步骤五、结合文字块和表格线提取表格中各单元格内容和位置信息;步骤六、表格单元格的组织结构分析。/n
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京众信博雅科技有限公司,未经北京众信博雅科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201910743582.5/,转载请声明来源钻瓜专利网。