[发明专利]查询词语的处理有效
申请号: | 200780021902.1 | 申请日: | 2007-04-19 |
公开(公告)号: | CN101467125A | 公开(公告)日: | 2009-06-24 |
发明(设计)人: | 鲁齐拉·S·达特;法比奥·洛皮亚诺 | 申请(专利权)人: | 谷歌公司 |
主分类号: | G06F7/00 | 分类号: | G06F7/00;G06F17/30 |
代理公司: | 中原信达知识产权代理有限责任公司 | 代理人: | 张焕生;安 翔 |
地址: | 美国加利*** | 国省代码: | 美国;US |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 查询 词语 处理 | ||
背景技术
本发明涉及在处理搜索查询中以及在包括文档和其它可搜索资源的库上的搜索中处理语言不确定性,其中查询和资源可以以多种不同语言中的任何一种来表示。
搜索引擎对文档进行索引并且提供方法来搜索其内容由搜索引擎进行索引的文档。文档以许多不同的语言书写;一些文档具有用多种语言的内容。各种字符被用来表示这些语言的单词:拉丁字母(即,从A到Z的26个非重读字符,大小写体)、区别音符(即,重读字符)、连字(例如, 、β、 )、西里尔字符以及其它。
遗憾的是,产生这些字符的能力和简便性在装置与装置之间差别极大。内容的作者和搜索引擎的用户可能都不能够便利地产生其更喜欢的字符。反而,这样的装置的用户将经常提供作为相近替代物的字符或字符序列。例如,AE可以被提供来替代 。而且,这样的替代的惯例在语言和用户之间不同。例如,搜索AE的某些用户可能更喜欢看见也包括 的结果。
用于解决在搜索引擎中的该问题的一种方法是处理索引内容以移除重音并将特殊字符转换为一组标准字符。该方法从索引移除信息,使得不可能仅检索单词的特定重读实例。该方法也因语言不可知论(agnosticism)而受损,其中所述语言不可知论不受这样的用户影响:所述用户的预期由所述用户的特定语言的惯例所形成。
发明内容
本说明书公开了用于使用搜索查询的词语的技术的各种实施例。 实施例表征为(feature)方法、系统、设备,包括计算机程序产品设备。在本发明内容中将参考方法描述这些中的每一个,对于所述方法存在相对应的系统和设备。
一般而言,在一个方面中,方法具有以下特征:通过用户界面从用户接收包括一个或多个查询词语的搜索查询,所述用户界面具有界面语言,所述界面语言是自然语言;以及从查询词语和界面语言为查询确定查询语言,所述查询语言是自然语言。这些和其它的实施例可以可选地包括下列特征中的一个或多个。所述方法包括为多种语言的每一种确定分值,所述分值指示查询语言是多种语言中的一种的可能性。所述方法包括使用查询语言来选择一个或多个映射并且使用所选择的一个或多个映射来将每一个查询词语简化为相对应的简化查询词语;以及将每一个简化查询词语应用于同义词映射表以识别扩增(augment)搜索查询的可能的同义词。所述方法包括为多种语言的每一种确定分值,所述分值指示查询语言是多种语言中的一种的可能性。
一般而言,在另一个方面,方法具有以下特征:通过用户界面从用户接收由一个或多个查询词语组成的搜索查询,所述用户界面具有界面语言,所述界面语言是自然语言;使用界面语言来选择一个或多个映射并且使用所选择的一个或多个映射来将每一个查询词语简化为相对应的简化查询词语;以及将每一个简化查询词语应用于同义词映射表以识别扩增搜索查询的可能的同义词。
一般而言,在另一个方面,方法具有以下特征:从文档库生成同义词映射表,每一个文档具有归属(attribute)于该文档的文档语言,所述文档语言每一种都是自然语言;其中同义词映射表将多个键中的每一个映射到一个或多个相对应的变体;以及每一个变体与文档语言中的一种或多种相关联。这些和其它的实施例可以可选地包括下列特征中的一个或多个。所述方法包括:对于每一种相关联的语言,每一个变体与指示该变体在用于相同键的相关联的语言的所有变体中的相 对频度的分值相关联。自动确定每一个文档的文档语言归属。
一般而言,在另一个方面,方法具有以下特征:通过将依赖于语言的映射的第一集合应用于库中的单词以为映射表生成键来从文档库生成同义词映射表,每一个文档具有归属于该文档的文档语言,归属于每一个文档的文档语言被用来确定应用于文档中的单词的依赖于语言的映射。这些和其它的实施例可以可选地包括下列特征中的一个或多个。所述方法包括通过将依赖于语言的映射的第二集合应用于每一个查询词语来从搜索查询中的每一个查询词语生成简化查询词语,所述搜索查询具有归属于该搜索查询的查询语言,归属于该搜索查询的查询语言被用来确定应用于每一个查询词语的依赖于语言的映射。依赖于语言的映射的第一集合与依赖于语言的映射的第二集合不同。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于谷歌公司,未经谷歌公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200780021902.1/2.html,转载请声明来源钻瓜专利网。
- 上一篇:对具有可变压缩的自适应索引的最接近搜索
- 下一篇:具有多层波导的光触摸板