[发明专利]对于包含非编码字符的查询使用统一资源定位符来增强搜索结果相关性排序有效
申请号: | 201110252294.3 | 申请日: | 2011-08-30 |
公开(公告)号: | CN102385609A | 公开(公告)日: | 2012-03-21 |
发明(设计)人: | 宋睿华;Q.姚;陈俊燕 | 申请(专利权)人: | 微软公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 中国专利代理(香港)有限公司 72001 | 代理人: | 刘红;刘鹏 |
地址: | 美国华*** | 国省代码: | 美国;US |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 对于 包含 编码 字符 查询 使用 统一 资源 定位 增强 搜索 结果 相关性 排序 | ||
背景技术
与网页相对应的统一资源定位符(URL)已显示为包含用于测量网页对于搜索查询的相关性的有用信息。已执行了大量的解决利用URL来改善搜索结果相关性排序的质量的问题的工作。这种工作传统上集中于西方语言网页,其字母集合例如能够通过编码诸如ASCII字符之类的字符来表示,这是因为URL由US-ASCII字符集(在这里称为编码字符)中的字符的字符串组成。
对于包括不允许在URL中使用的字符(即,“非编码字符”(NEC),例如,其可以包括中文、日文,韩文和其他的类似语言)的语言而言,由于URL利用编码字符来表示,所以将查询与URL匹配往往是困难的。为了更有效地将URL用于NEC语言市场中的相关性排序,所希望的是以相同的格式来表示搜索查询和相应的URL。能够采用两种方式之一来实现一致的格式。第一种方式是在在线服务时间改变查询,其中NEC查询基于映射表被变换为英文单词、拼音表示(即,中文字符的发音)、数字字符或这些的组合,其中映射表根据NEC字与其对应的编码语言形式之间类似的含义或发音的规则离线建立。另一种更坚固的方案是将URL中的有意义部分转换成NEC字,并在索引生成期间将转换的URL内置到网页索引中。
发明内容
这个概述部分用于以简化形式介绍下面在详细描述部分中进一步描述的概念的选择。这个概述部分不打算标识所请求保护的主题的关键特征或基本特征,也不打算被孤立用作辅助手段来确定所请求保护的主题的范围。
本发明的实施例用于执行离线程序,其中这些离线程序通过包括URL与相应NEC字的配对来有助于增强网页索引,以便于NEC语言搜索的搜索结果相关性排序。在实施例中,网页的URL被接收。URL子串从URL中进行提取,并与消除歧义信息进行比较,以推断出该URL的恰当的相应NEC表示。在实施例中,例如,诸如标题、锚(anchor)、层次结构中的字符串等之类的元素从网页中进行提取。每一个元素被断字(word-broken)为NEC字的序列。参考NEC-编码语言映射表来标识元素中的每个NEC字的所有可能的编码语言表示。在实施例中,代表断字元素的格被生成,其中每一个节点对应于NEC字的可能的编码语言表示。
使用这些格,能够采用遍历这些格的算法,其定义能够与所提取的URL子串进行比较的格路径,以标识匹配。连同与相应匹配相关联的置信度分数(confidence score)一起,与URL子串相匹配的格路径被添加到潜在的候选字符串列表。这些潜在的候选字符串能够与相应URL子串进行配对,并被并入网页索引中,以便于在线采用的NEC语言搜索结果相关性排序。
附图说明
下面参考附图详细描述本发明的实施例,其中:
图1是适合于实施本发明的实施例的示例性计算设备的框图;
图2是适合于用于实施本发明的实施例的示例性网络环境的框图;
图3描述用于根据本发明的实施例利用NEC语言/编码语言配对来增强网页索引的处理组件的说明性的实施方式;
图4描述根据本发明的实施例的说明性的映射表;
图5描述根据本发明的实施例的显示其各子串的说明性的URL;
图6描述根据本发明的实施例的说明性的中文语言网页;
图7描述根据本发明的实施例的代表网页元素的说明性的格集合;
图8描述根据本发明的实施例的说明性的URL候选字符串匹配处理;
图9描述根据本发明的实施例的说明性的修剪格;
图10是说明根据本发明的实施例、利用URL/NEC字对来增强网页索引以便于响应于包括NEC字的搜索查询而提供的搜索结果的相关性排序的示例性方法的流程图;和
图11是说明根据本发明的实施例、利用URL/NEC字对来增强网页索引以便于响应于包括NEC字的搜索查询而提供的搜索结果的相关性排序的示例性方法的另一流程图。
具体实施方式
在这里披露的本发明的实施例的主题利用特异性来描述,以满足法定要求。但是,该描述本身并不打算来限制这个专利的范围。相反,发明人已考虑:配合其他的当前或未来的技术,所请求保护的主题也可能以其他的方式来实现,以包括不同的步骤或与这个文献中所描述的相类似的步骤的组合。此外,虽然在这里可能使用术语“步骤”和/或“方框”来暗示所采用的方法的不同元素,但是除非且除了明确地描述各步骤的顺序之外,这些术语不应被解释为暗指在这里所公开的各种步骤之中或之间任何特定的顺序。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于微软公司,未经微软公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201110252294.3/2.html,转载请声明来源钻瓜专利网。