[发明专利]一种文档标题提取方法和装置有效
申请号: | 201010261268.2 | 申请日: | 2010-08-23 |
公开(公告)号: | CN102375806A | 公开(公告)日: | 2012-03-14 |
发明(设计)人: | 李松峰;邓姿;王长桥;张军 | 申请(专利权)人: | 北大方正集团有限公司;北京方正飞阅传媒技术有限公司 |
主分类号: | G06F17/22 | 分类号: | G06F17/22 |
代理公司: | 北京天昊联合知识产权代理有限公司 11112 | 代理人: | 陈源;罗建民 |
地址: | 100871 北京市海*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 文档 标题 提取 方法 装置 | ||
技术领域
本发明涉及文本数据处理技术领域,尤其涉及一种文档标题提取方法和装置。
背景技术
目前,随着计算机技术的发展,许多信息资源都以电子文档数据的形式保存,如何有效地从电子文档数据中抽取其逻辑结构(例如,文档标题)及其结构信息,是目前许多数字文档结构分析与应用技术中的关键问题。
比如,在目前逐渐被越来越多的人接受的电子书阅读中,从技术角度来讲,除了采用压缩图像方式的数据格式(比如,djvu/djv,pdf等)之外,一般就是采用文本方式(即,ASCII码方式)的数据格式(比如,pdf、doc、txt等)。但是,目前,这两种方式的电子书一般在制作期间都没有设置目录,这给使用者的阅读和目录检索带来了很大的不便。因此,期望能从电子书的图像或文本文档中提取文档标题作为目录条目,从而形成目录。
针对电子书阅读的这种问题,在“基于OCR的电子图书目录自动生成算法的实现”(《现代情报》24卷9期)中提出了一种能够自动生成电子图书目录的方法。在该方法中,首先使用OCR(光学字符识别)技术形成数字文献目录的逻辑状态,然后通过分离前导空格值、标题、页码等信息创建目录树。这种方法仅针对图像方式的电子书有效,并且OCR技术的好坏直接影响着目录提取的结果,而对于无字体、字号、位置等属性设置的文本方式的电子书,却无法提取文档标题来创建目录。
同样,目前广泛使用的办公软件WORD、WPS等虽然具有提取文档标题形成目录的功能,但是它们也要求文档标题要具有不同于正文的属性,比如,粗体、字号等,所以这些办公软件也无法适用于文本文档的标题提取。
此外,在申请号为200710179938.4的中国专利申请“一种基于PDF的复杂版面的标引方法”中,提出了一种对PDF文件中的文档标题进行标引的方法。在该方法中,通过分析和获取PDF上文字信息以及位置、字体、字号等信息,根据相邻、相似的原则进行自动化的文字成块操作;进一步根据字体字号等信息确定文档标题。通过这种方法,可提取PDF文件中的其字体、字号等信息不同于正文的章节标题。但是,如果PDF文件中章节标题的字体、字号等信息与正文相同,并且与正文之间的相邻关系也相同,则很难提取到文档标题。此外,由于文本文档中没有字体、字号等属性设置,所以该方法也无法提取文本文档中的标题。
从以上描述可看出,目前,对于类似于电子书阅读这样需要提取数字文档中的标题的应用而言,尚不能有效地从缺乏字体、字号等属性的文本文档或者无法区分标题与正文的字体、字号等属性的文档中提取文档标题。
发明内容
为了解决以上问题,本发明提供一种文档标题提取方法和装置,以实现各种数字文档中的标题提取。
为了实现以上目的,本发明提供的文档标题提取方法包括以下步骤:预置待处理文档中的标题的关键符和最大长度值;根据预置的关键符和最大长度值提取所述文档的文字流中的标题文字流。
优选地,对于中文文档,所述标题的关键符包括“第”、“回”、“章”、“卷”、“节”、“部分”、项目符号和编号中的至少一个;对于英文文档,所述标题的关键符包括“Chapter”、“Section”、项目符号和编号中的至少一个。
优选地,所述提取文档的文字流中的标题文字流的步骤包括以下步骤:以回车换行为分隔符标记将所述文字流分成一个或多个段落文字流,并将所述段落文字流形成段落文字流集合;从段落文字流集合中提取长度小于预置的最大长度值的段落文字流,形成类似标题文字流集合;根据预置的关键符过滤类似标题文字流集合中的伪标题文字流,并提取类似标题文字流集合中的其余的类似标题文字流以形成标题文字流集合。
优选地,对于标题包括多个段落的情况,除了预置标题的关键符和最大长度值之外,还预置标题所包括的段落数和各个关键符的段落位置,并且,在形成类似标题文字流集合之后,根据预置的段落数和段落位置从该类似标题文字流集合中提取由数量为所述段落数的段落文字流构成的类似标题文字流,形成进一步提取的类似标题文字流集合。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北大方正集团有限公司;北京方正飞阅传媒技术有限公司,未经北大方正集团有限公司;北京方正飞阅传媒技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201010261268.2/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种显示页面的方法及设备
- 下一篇:高压清洗机用无油泵