[发明专利]对文件内容进行分布式索引无效
申请号: | 200980103202.6 | 申请日: | 2009-01-23 |
公开(公告)号: | CN101925899A | 公开(公告)日: | 2010-12-22 |
发明(设计)人: | A·J·K·坦比拉特南;F·塞德 | 申请(专利权)人: | 微软公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F17/00 |
代理公司: | 上海专利商标事务所有限公司 31100 | 代理人: | 陈斌;钱静芳 |
地址: | 美国华*** | 国省代码: | 美国;US |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文件 内容 进行 分布式 索引 | ||
背景
信息被收集在各种类型的设备中(例如,计算机、服务器、存储介质、媒体播放器、电话等)以供私人使用和/或公共使用。信息的量继续增长。这一增长提出了关于访问感兴趣的信息和确定什么信息可用的挑战。
为这一信息创建索引帮助访问感兴趣的信息和确定什么信息可用。通常,这一信息包括若干类型的文件。文本文件、音频文件、视频文件、图像文件、以及图形文件是文件类型的示例。基于内容的索引信息和非基于内容的索引信息是可被包括在文件索引中的各类索引信息。基于内容的索引信息指的是从分析文件的内容而生成的索引信息。非基于内容的索引信息指的是从与文件相关联的除该文件的内容之外的任何数据生成的索引信息。元数据、文件名、以及文件描述是非基于内容的索引信息的源的示例。
已经部署了在网络级操作的索引实现(例如,因特网索引搜索引擎)和在设备级操作的索引实现(例如,计算机索引搜索引擎)。这些索引实现的有用性取决于若干因素,如其索引的范围和其索引中包括的索引信息的类型。被索引的文件的数量和这些文件的多样性反映了索引的范围。因为基于内容的索引信息一般比非基于内容的索引信息提供更多的文件知识,所以索引具有文件的基于内容的索引信息是合乎需要的。
虽然基于内容的索引信息是优选的,但存在着与在索引中包括基于内容的索引信息相关联的问题。尽管生成文本文件的基于内容的索引信息在准确度、所需时间努力、以及所需计算资源方面是切实可行的,但对非文本文件(例如,音频文件、视频文件、图像文件、以及图形文件)而言情况并非如此。非文本文件的基于内容的索引信息的准确度变化很大且在某些情况下不可使用。生成非文本文件的基于内容的索引信息需要大量计算资源并且是很耗时的。在进行作为后台操作来执行的索引的情况下,生成非文本文件的基于内容的索引信息可能因索引使用了过多计算资源而干扰正常使用模式,或者可能因未使用时间段和可用计算资源不足以支持索引而不能完成。
概述
提供本概述是为了以简化的形式介绍将在以下详细描述中进一步描述的一些概念。本概述并不旨在标识所要求保护的主题的关键特征或必要特征,也不旨在用于帮助确定所要求保护的主题的范围。
本文描述的是一种特别地用于对文件内容进行分布式索引的技术。基于文件的内容来创建其索引是合乎需要的。文件可以是文本文件或非文本文件(例如,音频文件、视频文件、图像文件、以及图形文件等)。基于内容对文件进行索引涉及确定该文件的基于内容的索引信息是否可从外部源获得。任何单个设备以及任何设备网络都是外部源的示例。这避免重复已执行的内容分析,尤其对于非文本文件而言内容分析是耗时且计算密集的。如果基于内容的索引信息可用,则从外部源接收它并存储它。如果基于内容的索引信息不可用或不完整,则生成并存储该文件的基于内容的索引信息。此外,与外部源共享所生成的基于内容的索引信息。一旦执行了该文件的内容分析从而生成了该文件的基于内容的索引信息,则在需要时该基于内容的索引信息是可用并可共享的。不需要重复对该文件的同一内容分析。
因此,各实施例提供了一种通过分布索引生成和共享分布式索引生成的结果来对文本文件和非文本文件进行基于内容的索引的切实可行的方式。各实施例允许基于内容的索引信息以各种方式变化。执行不同类型的内容分析、使用多个参数设置来进行内容分析、以及聚集对文件的不同部分执行的内容分析是使基于内容的索引信息变化的示例。
附图简述
合并在本说明书中并形成其一部分的附图示出了各实施例,并且与说明书一起用于解释各实施例的原理。
图1是根据各实施例的集中式索引源环境的框图。
图2是根据各实施例的分散式索引源环境的框图。
图3示出根据各实施例的用于对文件进行基于内容的索引的流程图。
图4示出根据各实施例的用于对文件进行基于内容的索引的流程图,其中文件的不同部分是单独索引的。
图5示出根据各实施例的用于对文件进行基于内容的索引的流程图,其中基于内容的索引包括各种索引模式,每一种索引模式都与不同类型的内容分析相对应。
图6示出根据各实施例的用于对文件进行基于内容的索引的流程图,其中基于内容的索引包括各种索引表现形式,每一种表现形式都与执行使用不同参数设置的内容分析相对应。
详细描述
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于微软公司,未经微软公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200980103202.6/2.html,转载请声明来源钻瓜专利网。
- 上一篇:内插系统和方法
- 下一篇:具有光敏元件的照明单元
- 内容再现系统、内容提供方法、内容再现装置、内容提供装置、内容再现程序和内容提供程序
- 内容记录系统、内容记录方法、内容记录设备和内容接收设备
- 内容服务系统、内容服务器、内容终端及内容服务方法
- 内容分发系统、内容分发装置、内容再生终端及内容分发方法
- 内容发布、内容获取的方法、内容发布装置及内容传播系统
- 内容提供装置、内容提供方法、内容再现装置、内容再现方法
- 内容传输设备、内容传输方法、内容再现设备、内容再现方法、程序及内容分发系统
- 内容发送设备、内容发送方法、内容再现设备、内容再现方法、程序及内容分发系统
- 内容再现装置、内容再现方法、内容再现程序及内容提供系统
- 内容记录装置、内容编辑装置、内容再生装置、内容记录方法、内容编辑方法、以及内容再生方法