[发明专利]基于语言环境的索引和搜索方法有效
申请号: | 201180052442.5 | 申请日: | 2011-10-19 |
公开(公告)号: | CN103282900B | 公开(公告)日: | 2017-02-22 |
发明(设计)人: | J·M·赫恩科韦斯特;E·R·戈伯勒 | 申请(专利权)人: | 苹果公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 中国国际贸易促进委员会专利商标事务所11038 | 代理人: | 李玲 |
地址: | 美国加*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 语言 环境 索引 搜索 方法 | ||
技术领域
本发明实施例一般涉及数据的索引和搜索领域;更具体而言,涉及基于语言环境(language locale)的索引和搜索。
背景技术
例如通用计算机系统的现代数据处理系统允许这种系统的用户创建各种不同类型的数据文件。例如,数据处理系统的典型用户可用文字处理程序(例如Microsoft Word)创建文本文件,或者可用图像处理程序(例如Adobe的Photoshop)创建图像文件。其他类型的众多文件能够由一个或多个用户创建或修改、编辑并以其他方式使用,用于典型的数据处理系统。可被创建或修改的不同类型的大量文件可对试图找到已被创建的特定文件的典型用户提出挑战。
现代数据处理系统通常包括文件管理系统,该文件管理系统允许用户将文件放置在各种目录或子目录(如文件夹)中,并允许用户给文件命名。此外,这些文件管理系统经常允许用户不仅通过搜索文件内容还通过搜索文件名、或创建日期、或修改日期或文件类型而找到文件。这种文件管理系统的例子是在加州库比蒂诺的苹果计算机公司的Macintosh计算机上运行的Finder程序。文件管理系统程序的另一个例子是在华盛顿雷德蒙的微软公司的Windows操作系统上运行的Windows Explorer程序。Finder程序和Windows Explorer程序都包括发现命令,该发现命令允许用户通过各种标准(包括文件名、或创建日期、或修改日期或文件类型)搜索文件。这种搜索能力通过信息来搜索,该信息对于每个文件都是相同的而不管文件类型。因此,例如,Microsoft Word文件的可搜索数据与Adobe Photoshop文件的可搜索数据相同,此数据通常包括文件名、文件类型、创建日期、最后修改日期、文件大小以及可由文件管理系统为文件维护的某些其他参数。
目前现有的某些应用程序允许用户维护关于特定文件的数据。关于特定文件的数据可被视为元数据,因为它是关于其他数据的数据。特定文件的此元数据可包括关于文件作者的信息、文档摘要以及其他类型的各种信息。某些文件管理系统(例如Finder程序)允许用户通过搜索元数据找到文件。
在典型的系统中,各种内容、文件和元数据被索引,用于之后在通常被称为倒排索引(inverted index)中使用程序(例如Finder程序)进行检索。例如,倒排索引可包含其中出现特定词的文档参考列表。
某些环境不同地响应于特殊字符。例如在美国,‘a’字符应该生成‘a’、以及‘à’和一些其他字符,因为它们基于其基本字符而具有相似含义或相同含义。与此相反,在瑞典语环境中,这些字符可能具有不同含义。传统的索引和搜索并没有考虑到该特定语言环境。
发明内容
根据本发明的一个方面,响应于从客户端接收的具有搜索项(search term)的搜索查询,确定当前语言环境。基于当前语言环境建立状态机,其中所述状态机包括一个或多个节点,以表示具有相同搜索项含义的搜索项的变化。遍历(traverse)状态机的每个节点以识别对应于状态机的每个节点的倒排索引的一个或多个记入列表(posting list)。从所述一个或多个记入列表获得的一个或多个项目标识符被返回到客户端,其中所述项目标识符可识别包含由状态机表示的搜索项的变化的一个或多个文件的一个或多个条目或位置。
根据本发明的另一个方面,响应于具有搜索项的搜索查询,确定搜索项的每个部分的排序规则键(collation key)。基于所述搜索项,建立具有一个或多个节点的状态机,每个节点表示搜索项中的字符之一。遍历状态机中的每个节点以识别对应于状态机的每个节点的倒排索引的一个或多个记入列表。对于状态机的每个节点,基于当前语言环境识别具有相同含义的一个或多个等效字符。将等效字符的排序规则键和搜索项中一个或多个对应字符的一个或多个键相比较。移除具有和搜索项中对应字符的排序规则键不匹配的排序规则键的等效字符,其中剩余字符用于识别倒排索引中的一个或多个记入列表。
根据本发明的再一个方面,在数据处理系统处接收第一项,其中所述第一项包括要被索引的一个或多个字符。确定数据处理系统的当前语言环境。确定在当前语言环境下第一项的每个字符的排序规则键。在倒排索引中索引所述第一项的每个字符的排序规则键而不基于第一项的实际字符进行索引。所述排序规则键表示当前语言环境下具有相同含义的一个或多个等效字符的族,其中基于排序规则键,为随后的搜索使用所述倒排索引。
从附图和随后的详细描述将显而易见本发明的其它特征。
附图说明
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于苹果公司,未经苹果公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201180052442.5/2.html,转载请声明来源钻瓜专利网。