[发明专利]给文档编索引有效
申请号: | 201080058410.1 | 申请日: | 2010-12-10 |
公开(公告)号: | CN102959538B | 公开(公告)日: | 2016-10-12 |
发明(设计)人: | B·K·霍伊特;P·J·穆尔;G·S·菲尔德曼 | 申请(专利权)人: | 国际商业机器公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 中国国际贸易促进委员会专利商标事务所 11038 | 代理人: | 邹姗姗 |
地址: | 美国*** | 国省代码: | 美国;US |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文档 索引 | ||
技术领域
本发明涉及给文档编索引和检索文档。更具体而言,本发明涉及内部索引集的使用。
背景技术
例如文档和文档的文档可以具有相关联的文档元数据(例如,谁创建了该文档及创建日期),该文档元数据可以用于给文档编索引(WORD和EXCEL是美国、其它国家或者两者兼有的微软公司的商标)。然而,可用的元数据是有限的,而且,让用户定制索引这些文档的项将是有用的。
此外,便携式文档格式(PDF)是1993年来自Adobe Systems公司的文档体系结构(ADOBE是在美国、其它国家或者两者兼有的Adobe Systems公司的商标)。PDF文档最初是为了打印而创建的,但是现在在互联网上也发现了大量的PDF文档。事实上,PDF已经成为基于互联网的文档的事实标准。
因为互联网的迅猛发展,各个公司正快速地从比较老的专有打印格式转向支持PDF。这种转移允许它们生成报表(statement)(例如,发票)的打印拷贝并主控(host)相同版本的报表用于在环球网(也称为万维网或者WWW)上浏览。在这种转移之前,文档从专有的数据类型转换成PDF。作为这种转移的一部分,各个公司正在暴露关于PDF格式的体系结构问题,因为它涉及包括多个报表的大量单个PDF文档。这种类型的PDF文档被称为PDF报告文档。
例如,为了访问PDF报告文档中的单个报表,提取唯一的信息块(即,索引,有时候也称为元数据),使得用户可以搜索特定的文档。这种把PDF报告文档分解成单独的文档并且提取用于每个单独文档的索引的技术称为编索引。从PDF报告文档提取索引的典型技术是搜遍PDF报告,查找该PDF报告文档的某些预定位置中的文本,而且这些预定位置被称为PDF文档中文本的边界框。
为了提取文本,首先以图形化形式呈现PDF文档的每一页。然后,检查每个PDF页面的每个词,以便确定该词是否在边界框之内。这种技术需要许多的图形、字体和浮点运算,这使得这种技术很慢,尤其是当PDF文档变得比较大时。即,已知的索引器使用图形技术来提取数据,这是非常资源密集的而且容易出错(即,由于字体规格,具有取整误差的边界框等等)。
因而,需要利用内部索引集来给文档编索引。
发明内容
本发明寻求提供用于检索文档的方法、计算机程序产品与系统,所述文档对于每一页都包括由处理该文档的应用程序忽略的区域而且包括与该文档的每个页子集相关联的不同内部索引集,其中每个不同的内部索引集都与一个区域关联并且存储索引,而且其中每个索引都由名称-值对构成。然后,对于文档中的每一页,确定该页是否与一个内部索引集相关联;而且,响应于确定该页与一个内部索引集相关联,从该内部索引集提取一个或多个名称-值对,其中所述一个或多个名称-值对中的每一个都提供关于该文档的特定信息,用于识别该文档。
附图说明
现在将参考附图仅仅作为例子描述本发明的实施方式,附图中:
图1以框图例示了根据本发明某些实施方式的计算环境;
图2以流程图例示了根据某些实施方式的内部索引集的创建;
图3以流程图例示了根据某些实施方式的采用内部索引集来建立内部索引集数据库;
图4例示了根据某些实施方式的示例页面-块词典(page-piece dictionary);
图5以流程图例示了根据某些实施方式的由内部索引集提取器执行的处理;
图6例示了根据某些实施方式的在存储来自一个或多个内部索引集的索引的数据库中的示例表;
图7以流程图例示了根据某些实施方式的内部索引集的数据库的使用;及
图8例示了根据某些实施方式的可以使用的计算机体系结构。
具体实施方式
在以下描述中,参考构成本文一部分并且例示本发明几种实施方式的附图。应当理解,在不背离本发明范围的情况下,可以使用其它的实施方式而且可以进行结构与操作的改变。
图1以框图例示了根据本发明某些实施方式的计算环境。计算设备100耦接到库160。计算机100包括文档处理器110、索引系统120、搜索系统130和映射140。索引系统120包括内部索引集提取器122。库160包括文档170和索引数据库180(本文中的“数据库”)。在某些实施方式中,文档170包括PDF报告文档、文档和文档。在某些实施方式中,文档处理器110创建PDF格式、格式或者格式的文档。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国际商业机器公司,未经国际商业机器公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201080058410.1/2.html,转载请声明来源钻瓜专利网。