[发明专利]用于图片标题的提取方法和装置有效
申请号: | 201010578133.9 | 申请日: | 2010-12-02 |
公开(公告)号: | CN102708099A | 公开(公告)日: | 2012-10-03 |
发明(设计)人: | 姜凯;曾建英;缪萍 | 申请(专利权)人: | 北大方正集团有限公司;北京北大方正电子有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京英赛嘉华知识产权代理有限责任公司 11204 | 代理人: | 王达佐 |
地址: | 100871 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 用于 图片 标题 提取 方法 装置 | ||
技术领域
本发明涉及印刷领域,具体而言,涉及用于图片标题的提取方法和装置。
背景技术
多年以来,各个出版社、排版公司等通过文字排版软件制作出书籍、报纸、期刊等各种出版物,积累了大量的文件资源。这些文件资源绝大多数都是流式的内容数据,组织形式离散,对象关系弱化,结构层次耦合大,非常不利于数据内容的维护、重用和再加工。为此,需要采用结构化提取技术,将传统的文件资源内容抽象出具有一定组织层次结构的逻辑内容数据。
针对不同格式和形式的数据内容的特点,通过匹配规则适配和抽取文本片段是结构化加工的一种重要手段。然而发明人发现,这种方式仅对文本内容有效,而无法提取那些非文本的数据类型。有些电子书籍中采用图片作为标题,对于这种特殊类型,现有的结构化提取方法就不能处理了。
发明内容
本发明旨在提供一种用于图片标题的提取方法和装置,以解决现有技术不能对图片标题进行处理的问题。
在本发明的实施例中,提供了一种用于图片标题的提取方法,包括:确定电子书籍的标题图片;提供文本控件以接受用户输入文字描述标题图片;将输入的文字和标题图片的资源信息生成文字节点,加入到电子书籍的结构化内容中。
在本发明的实施例中,提供了一种用于图片标题的提取装置,包括:确定模块,用于确定电子书籍的标题图片;文本控件,用于接受用户输入文字描述标题图片;生成模块,用于将输入的文字和标题图片的资源信息生成文字节点,加入到电子书籍的结构化内容中。
本发明因为采用文字描述替代图片标题加入到结构化内容中,所以克服了现有技术无法处理图片标题的问题,实现了对电子书籍的结构化管理。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1示出了根据本发明一个实施例的用于图片标题的提取方法的流程图;
图2示出了根据本发明一个优选实施例的将输入的文字和标题图片的资源信息生成文字节点的流程图;
图3示出了根据本发明一个实施例的用于图片标题的提取装置的示意图。
具体实施方式
下面将参考附图并结合实施例,来详细说明本发明。
图1示出了根据本发明一个实施例的用于图片标题的提取方法的流程图,包括:
步骤S10,确定电子书籍的标题图片;
步骤S20,提供文本控件以接受用户输入文字描述标题图片;
步骤S30,将输入的文字和标题图片的资源信息生成文字节点;
步骤S40,将文字节点作为电子书籍的标题加入到电子书籍的结构化内容中。
匹配规则适配和抽取文本片段是结构化加工的一种重要手段,而图片标题因为是图片格式,显然无法匹配规则适配和抽取文本片段,因此在现有技术中无法进行结构化加工。而本实施例中,可以在界面上提供一个文本控件(例如文本输入框)要求用户输入文字来描述标题图片,用输入的文字来代替标题图片加入到结构化内容中,显然该输入的文字是可以匹配规则适配和抽取文本片段的,从而克服了现有技术无法处理图片标题的问题,实现了对电子书籍的结构化管理。
优选地,步骤S10包括:获取电子书籍中的全部图片;提供选择控件以接受用户从全部图片中选择图片;将所选择的图片确定为电子书籍的标题图片。因为电子书籍所提供的流式内容中通常不只包含一幅图,而是可以包含书本正文中的多幅图。显然,计算机难以识别出这些图片中哪一幅图才是标题图片。而本优选实施例提供了选择控件来允许用户在界面上手动地选择图片,从而解决了现有技术的这个难题。
本优选实施例中可以对于存在的图片,获取其基本图片信息,如图片名称、图片大小等,并将这些信息按照结构化的格式保存到固定的XML文件中。
优选地,获取电子书籍中的全部图片包括:解析电子书籍中包含的全部图片的名称及路径;根据名称及路径查找并收集电子书籍的全部图片。一般来说,电子书籍的流式内容中会包含图片的名称和路径,本优选实施例利用这些信息就可以检索到电子书籍的全部图片,从而可以确定其中的标题图片。根据文件名可以查找电子书籍结构化内容中对应的逻辑图片节点,并统计逻辑图片节点的个数作为物理图片的引用次数。同时建立逻辑图片节点和物理图片的逻辑关联关系,方便从物理图片快速找到对应的逻辑图片节点。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北大方正集团有限公司;北京北大方正电子有限公司,未经北大方正集团有限公司;北京北大方正电子有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201010578133.9/2.html,转载请声明来源钻瓜专利网。
- 上一篇:在通信系统中处理M2M业务
- 下一篇:一种花状二硫化钼空心微球的制备方法