[发明专利]索引建立方法、搜索方法和搜索结果排序方法及对应装置有效
申请号: | 201110086824.1 | 申请日: | 2011-04-07 |
公开(公告)号: | CN102737039A | 公开(公告)日: | 2012-10-17 |
发明(设计)人: | 喻宏勇;石远 | 申请(专利权)人: | 北京百度网讯科技有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 深圳市威世博知识产权代理事务所(普通合伙) 44280 | 代理人: | 何青瓦;李庆波 |
地址: | 100085 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 索引 建立 方法 搜索 结果 排序 对应 装置 | ||
【技术领域】
本发明涉及计算机技术领域,特别涉及一种索引建立方法、搜索方法和搜索结果排序方法及对应装置。
【背景技术】
随着计算机技术中搜索技术的迅速发展,搜索引擎已经成为人们获取信息的主要手段。当用户输入搜索请求(query)后,搜索引擎能够将与query匹配的搜索结果返回给用户,即将包含query中各词语的页面包含在搜索结果。
在现有的搜索技术中,召回的搜索结果中,可能有的页面与用户输入的query的相关度较低,因此,在对搜索结果进行排序时,主要基于搜索结果中页面的特征向量与query的相关度进行,将特征向量与query的相关度高的搜索结果排在前面。然而,现有的排序方式仍然会存在搜索准确性低的问题,例如,用户输入的query为“刘德华出生日期”,搜索引擎在召回页面时,可能存在一些页面中虽然包含“刘德华”和“出生日期”,但两者之间是毫无关系的,而显然用户需求的页面是“出生日期”作为“刘德华”的属性的,这在现有的搜索方法中并无法识别和满足,搜索准确性很低,搜索效果较差。
【发明内容】
有鉴于此,本发明提供了一种索引建立方法、搜索方法和搜索结果排序方法及对应装置,以便于提高搜索准确性,改善搜索效果。
具体技术方案如下:
一种索引建立方法,该方法包括:
A、对页面进行分词和词性标注;
B、基于语义分析或页面中的视觉特征中的至少一种,从分词处理后得到的各词语中确定实体词以及该实体词对应的属性词并分别进行标注;
C、在建立所述页面的索引时,将建立索引所使用词语具有的实体词或属性词标注同时添加入索引中。
步骤B中基于语义分析,从分词处理后得到的各词语中确定实体词具体包括:
将页面词条中的名词、被识别为页面主题词的名词、作为句子中心词的名词、在页面的出现频次在预设范围内的名词或者页面中的命名实体确定为实体词。
步骤B中基于语义分析,从分词处理后得到的各词语中确定实体词对应的属性词具体包括:
依据上下文关系,将分词处理后得到的各词语中与实体词的属性关系概率达到预设属性概率阈值的词语作为该实体词的属性词;或者,
依据预设的语义模板,从分词处理后得到的各词语中确定实体词对应的属性词,所述语义模板中包含实体词与属性词构成的各种句式结构。
其中,所述页面中的视觉特征包括:逻辑块、逻辑块与逻辑块之间的距离、背景颜色、字体颜色和大小、边框、符号或者表格;
步骤B中基于页面中的视觉特征,从分词处理后得到的各词语中确定实体词以及实体词对应的属性词具体包括:将页面中具有预设视觉特征的词语确定为实体词或属性词。
更优地,添加入所述索引中的还包括以下标注中的至少一种:
实体词与属性词之间对应关系的标注;以及,
属性词的属性类型标注;
实体词具有突出的视觉特征标注;以及,
属性词具有突出的视觉特征标注。
一种搜索方法,该方法包括:
A、对接收到的搜索请求query进行分词和词性标注;
B、基于语义分析,从分词处理后得到的各词语中确定实体词以及该实体词对应的属性词并分别进行标注;
C、查找与分词处理后得到的各词语以及各词语的标注相匹配的索引对应的页面,其中各词语的标注为各词语的实体词或属性词标注,所述索引采用上述索引建立方法建立;
D、将查找到的页面包含在所述query的搜索结果中。
较优地,在所述步骤A和步骤B之间还包括:
基于预设的停用词表对分词处理后得到的各词语进行过滤处理,过滤掉所述停用词表中包含的词语;
所述停用词表中包含以下所列的至少一种:副词、虚词、助词、疑问词、语气词、代词。
具体地,步骤B中基于语义分析,从分词处理后得到的各词语中确定实体词包括:
将作为query中心词的名词或者query中的命名实体确定为实体词。
步骤B中基于语义分析,从分词处理后得到的各词语中确定实体词对应的属性词具体包括:
依据上下文关系,将所述分词处理后得到的各词语中与实体词的属性关系概率达到预设属性概率阈值的词语作为该实体词的属性词;或者,
依据预设的语义模板,从所述分词处理后得到的各词语中确定实体词对应的属性词,所述语义模板中包含实体词与属性词构成的各种句式结构。
更优地,在所述步骤B和所述步骤C之间还包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京百度网讯科技有限公司,未经北京百度网讯科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201110086824.1/2.html,转载请声明来源钻瓜专利网。