[发明专利]基于原始用户输入建议和细分用户输入无效
申请号: | 200680021940.2 | 申请日: | 2006-05-04 |
公开(公告)号: | CN101297291A | 公开(公告)日: | 2008-10-29 |
发明(设计)人: | 吴军;林德康;钱哲;周杰 | 申请(专利权)人: | 谷歌公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京康信知识产权代理有限责任公司 | 代理人: | 余刚;尚志峰 |
地址: | 美国加利*** | 国省代码: | 美国;US |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 原始 用户 输入 建议 细分 | ||
技术领域
本发明总的来说涉及生成可选用户输入。更具体地,公开了基于诸如搜索查询的原始用户输入生成更改和细分的用户输入的系统和方法。
背景技术
在给定的搜索会话(session)期间,许多用户常常,有时重复地,更改或细分其原始搜索查询。例如,用户可以将原始搜索查询更改为更具体的搜索查询、更宽泛的搜索查询、和/或使用可选的查询词语(term)的搜索查询,直到生成期望的搜索结果。用户搜索查询细分通过基于罗马语系语言(例如,英语)的查询、以及通过基于非罗马语系语言(例如,汉语、日语、韩语(CJK)、泰国语等)来产生。当原始搜索查询未产生一组好的搜索结果时(例如,如果搜索查询太具体或太宽泛,或者如果搜索查询使用不合适的词语),用户通常更改或细分他们的搜索查询。例如,当一个或多个搜索词语有多种意思且一些返回文档涉及不同于用户想要的多义搜索词语的一个意思时、和/或用户仅对搜索词语的许多方面中给定搜索词语的一个方面感兴趣时,原始用户搜索查询可能产生许多不相关的结果。当用户仅探究关于所指定搜索词语的概念时,原始用户搜索查询也可能产生很多不相关的结果。
许多搜索引擎提供与用户原始搜索查询相关的一系列建议的搜索查询。例如,如果用户的原始搜索查询是“Amazon”,则搜索引擎可以建议其它相关的搜索查询,例如,“Amazon.com”、“Amazon Rainforest”、以及“Amazon River”。搜索查询建议对于基于非罗马语系语言用户(例如,CJK用户)特别有用。具体地,因为基于非罗马语系语言通常具有一组大量的字符且每个字符可能都需要多次按下使用传统基于罗马语系的键盘的按键,所以基于非罗马语系语言用户可以优选单击或选择全部键入的更改搜索查询中的一个建议的搜索查询。例如,许多汉语用户使用拼音(语音拼写法)来输入汉语字符。典型地,传统拼音输入系统转换拼音输入,并提供用户可以从中选择期望的汉语字符集的一组候选的汉语字符集。明显的是,多步输入处理将是繁重且耗时的。
搜索查询建议也将对基于罗马语系的语言用户有用。许多搜索引擎(例如,Yahoo、Teoma、Alta Vista、Askjeeves、AllTheWeb以及Baidu)都提供例如以相关搜索、查询细分、或查询分簇形式的特征。
发明内容
公开了一种基于原始用户输入(例如,搜索查询)来生成更改或细分的用户输入的系统和方法。应当理解,本发明可以多种方式来实施,这些方式包括诸如处理、设备、系统、装置、方法、或其中的程序指令通过光通信线路或电子通信线路来发送的计算机可读介质(例如,计算机可读存储介质或计算机网络)。术语计算机通常指具有计算能力的任何装置,例如,个人数字助理(PDA)、蜂窝式电话、和网络交换机。以下将描述本发明的几个创造性实施例。
该方法可以被应用于基于非罗马语系语言(例如,汉语)的查询。该方法通常可以包括接收和识别原始用户输入中的核心词语;通过根据相似矩阵用另一词语代替原始输入中的核心词语、和/或根据扩展/缩略表用另一个字序列替代原始输入中的字序列来确定潜在可选的用户输入,其中,一个序列是另一个序列的子串;计算潜在可选的用户输入的似然;以及根据预定标准(例如,每个所选的可选用户输入的似然至少为原始用户输入的似然)来选择最可能的可选用户输入。该方法还可以包括确定原始用户输入是否在所建议的可选用户输入的预计算高速缓冲存储器中,如果在,则输出存储在预计算高速缓冲存储器中的预计算的最可能的可选用户输入。
相似矩阵可以利用语料库生成,且可以具有两个相似词语(包括例如“New York”和“Los Angeles”的短语词)之间的相似值,尽管每个对应词语对(New和Los和York和Angeles)不具有高相似性,但这些短语词可以具有非常高的相似性。在一个实施例中,可以通过构建对于语料库中的字的特征向量并利用他们的特征向量来确定两个字/短语之间的相似值来生成相似矩阵。
可以从用户输入数据库中生成扩展/缩略表,且可以具有与每对词语序列相关的频率值。在一个实施例中,可以通过确定常用的字序列、滤出非短语字序列、以及使计数与每个术语序列相关作为频率值来生成扩展/缩略表。仅为了示出,扩展/缩略表中的项的实例可以为“The United State of America”和“United States”。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于谷歌公司,未经谷歌公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200680021940.2/2.html,转载请声明来源钻瓜专利网。