[发明专利]生成目录结构化信息的方法和装置有效
申请号: | 201910973998.6 | 申请日: | 2019-10-14 |
公开(公告)号: | CN110705503B | 公开(公告)日: | 2022-02-25 |
发明(设计)人: | 田英爱;王长胜;李宁;施运梅;李海波 | 申请(专利权)人: | 北京信息科技大学 |
主分类号: | G06V30/413 | 分类号: | G06V30/413;G06F16/901;G06F40/189 |
代理公司: | 北京唯智勤实知识产权代理事务所(普通合伙) 11557 | 代理人: | 陈佳 |
地址: | 100085 北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 生成 目录 结构 信息 方法 装置 | ||
本公开的实施例公开了生成目录结构化信息的方法和装置。该方法的一具体实施方式包括:获取待处理版式文档,待处理版式文档包括目录;基于目录的目录特征信息,对目录进行识别,得到版式目录信息;对版式目录信息依次进行去噪、分栏、成行分段、去重处理,得到处理后的版式目录信息;将处理后的版式目录信息映射为目录结构化信息。该实施方式增强了目录在不同设备上显示的自适应性。
技术领域
本公开的实施例涉及计算机版式技术领域,具体涉及生成目录结构化信息的方法和装置。
背景技术
数字出版物,常见为电子书,基本都含有目录,可以在在电脑、手机、大型号立柜式的触摸屏、电纸书等数字阅读设备上呈现。目录大体有三种作用:1、目录信息的纯静态独立展现,通常与该书籍的封面、作者等元数据信息、内容简介一起展现给读者(无交互行为),也称之为元数据目录或浏览展示目录。2.阅读过程中展现目录信息供读者点击跳转到对应章节,也称之为活动目录。3.作为书籍内容的一部分静态呈现给读者,也称之为内容目录。
当前数字出版资源加工的输入多是专业排版软件的中间产物,如PDF等纯版式文档。一般来说,这类文档的阅读显示与印刷效果一致。但是由于不包含流式的目录结构化信息或者经过自动化的智能版面识别后得到的流式的目录结构化信息质量较差,因而在不同尺寸屏幕的设备之间的自适应性阅读效果差,无法完全满足“一次出版,多平台应用,多途径传播”的目标。
为解决这类问题,需要针对版式文档中的内容目录进行提取。目前,主要通过人工智能算法进行识别和提取。实践中,版式文档目录的排版方式千差万别。常见的包括:带有背景图(如图6所示)、带层级(如图7所示)、带有页眉页脚(如图8所示)、带底纹填充(如图9所示)、带装饰图案(如图10所示)、多栏(如图11所示)等等排版方式。
由于人工智能算法是在大量样本基础上训练优化得到的,对于排版比较复杂的版式文档的目录进行提取时,常常出现以下问题:一段目录被拆分为两段(如图12a和12b所示)、多段目录被合并为一段(如图13a和13b所示)、流式图元顺序错乱、包含透明底图/图形/图像/底纹/页眉页脚等噪声、包含无用的修饰字符串等等。本公开的实施例旨在提出一种准确率高的生成目录结构化信息的方法和装置。
发明内容
本公开的实施例提出了生成目录结构化信息的方法和装置。
第一方面,本公开的实施例提出了一种生成目录结构化信息的方法,包括:获取待处理版式文档,待处理版式文档包括目录;基于目录的目录特征信息,对目录进行识别,得到版式目录信息;对版式目录信息依次进行去噪、分栏、成行分段、去重处理,得到处理后的版式目录信息;将处理后的版式目录信息映射为目录结构化信息。
在一些实施例中,目录特征信息包括目录起始页码和目录结束页码,目录起始页码和目录结束页码通过以下步骤确定:确定活动目录中是否包含目录起始页码和目录结束页码;响应于确定活动目录中包含目录起始页码和目录结束页码,从活动目录中获取目录起始页码和目录结束页码;响应于确定活动目录中不包含目录起始页码和目录结束页码,接收操作人员输入的目录起始页码和目录结束页码。
在一些实施例中,目录特征信息包括阅读方向信息,阅读方向信息通过以下步骤确定:确定待处理版式文档的阅读方向与预设阅读方向信息所表征的阅读方向是否相同;响应于确定待处理版式文档的阅读方向与预设阅读方向信息所表征的阅读方向相同,将预设阅读方向信息确定为阅读方向信息;响应于确定待处理版式文档的阅读方向与预设阅读方向信息所表征的阅读方向不同,从预设的至少一个候选阅读方向信息中选取一个候选阅读方向信息作为阅读方向信息。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京信息科技大学,未经北京信息科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910973998.6/2.html,转载请声明来源钻瓜专利网。
- 信息记录介质、信息记录方法、信息记录设备、信息再现方法和信息再现设备
- 信息记录装置、信息记录方法、信息记录介质、信息复制装置和信息复制方法
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录设备、信息重放设备、信息记录方法、信息重放方法、以及信息记录介质
- 信息存储介质、信息记录方法、信息重放方法、信息记录设备、以及信息重放设备
- 信息存储介质、信息记录方法、信息回放方法、信息记录设备和信息回放设备
- 信息记录介质、信息记录方法、信息记录装置、信息再现方法和信息再现装置
- 信息终端,信息终端的信息呈现方法和信息呈现程序
- 信息创建、信息发送方法及信息创建、信息发送装置