[发明专利]索引建立方法、搜索方法和搜索结果排序方法及对应装置有效
申请号: | 201110086824.1 | 申请日: | 2011-04-07 |
公开(公告)号: | CN102737039A | 公开(公告)日: | 2012-10-17 |
发明(设计)人: | 喻宏勇;石远 | 申请(专利权)人: | 北京百度网讯科技有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 深圳市威世博知识产权代理事务所(普通合伙) 44280 | 代理人: | 何青瓦;李庆波 |
地址: | 100085 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 索引 建立 方法 搜索 结果 排序 对应 装置 | ||
1.一种索引建立方法,其特征在于,该方法包括:
A、对页面进行分词和词性标注;
B、基于语义分析或页面中的视觉特征中的至少一种,从分词处理后得到的各词语中确定实体词以及该实体词对应的属性词并分别进行标注;
C、在建立所述页面的索引时,将建立索引所使用词语具有的实体词或属性词标注同时添加入索引中。
2.根据权利要求1所述的方法,其特征在于,步骤B中基于语义分析,从分词处理后得到的各词语中确定实体词具体包括:
将页面词条中的名词、被识别为页面主题词的名词、作为句子中心词的名词、在页面的出现频次在预设范围内的名词或者页面中的命名实体确定为实体词。
3.根据权利要求1所述的方法,其特征在于,步骤B中基于语义分析,从分词处理后得到的各词语中确定实体词对应的属性词具体包括:
依据上下文关系,将分词处理后得到的各词语中与实体词的属性关系概率达到预设属性概率阈值的词语作为该实体词的属性词;或者,
依据预设的语义模板,从分词处理后得到的各词语中确定实体词对应的属性词,所述语义模板中包含实体词与属性词构成的各种句式结构。
4.根据权利要求1所述的方法,其特征在于,所述页面中的视觉特征包括:逻辑块、逻辑块与逻辑块之间的距离、背景颜色、字体颜色和大小、边框、符号或者表格;
步骤B中基于页面中的视觉特征,从分词处理后得到的各词语中确定实体词以及实体词对应的属性词具体包括:将页面中具有预设视觉特征的词语确定为实体词或属性词。
5.根据权利要求1所述的方法,其特征在于,步骤C中,添加入所述索引中的还包括以下标注中的至少一种:
实体词与属性词之间对应关系的标注;
属性词的属性类型标注;
实体词具有突出的视觉特征标注;以及,
属性词具有突出的视觉特征标注。
6.一种搜索方法,其特征在于,该方法包括:
A、对接收到的搜索请求query进行分词和词性标注;
B、基于语义分析,从分词处理后得到的各词语中确定实体词以及该实体词对应的属性词并分别进行标注;
C、查找与分词处理后得到的各词语以及各词语的标注相匹配的索引对应的页面,其中各词语的标注为各词语的实体词或属性词标注,所述索引采用如权利要求1所述的方法建立;
D、将查找到的页面包含在所述query的搜索结果中。
7.根据权利要求6所述的方法,其特征在于,在所述步骤A和步骤B之间还包括:
基于预设的停用词表对分词处理后得到的各词语进行过滤处理,过滤掉所述停用词表中包含的词语;
所述停用词表中包含以下所列的至少一种:副词、虚词、助词、疑问词、语气词、代词。
8.根据权利要求6或7所述的方法,其特征在于,步骤B中基于语义分析,从分词处理后得到的各词语中确定实体词具体包括:
将作为query中心词的名词或者query中的命名实体确定为实体词。
9.根据权利要求6或7所述的方法,其特征在于,步骤B中基于语义分析,从分词处理后得到的各词语中确定实体词对应的属性词具体包括:
依据上下文关系,将所述分词处理后得到的各词语中与实体词的属性关系概率达到预设属性概率阈值的词语作为该实体词的属性词;或者,
依据预设的语义模板,从所述分词处理后得到的各词语中确定实体词对应的属性词,所述语义模板中包含实体词与属性词构成的各种句式结构。
10.根据权利要求6或7所述的方法,其特征在于,在所述步骤B和所述步骤C之间还包括:
E、对所述query进行需求明确度分析,如果确定所述query需求明确,则继续执行所述步骤C;否则,执行步骤F;
F、查找与所述分词处理后得到的各词语相匹配的索引对应的页面,转至所述步骤D。
11.根据权利要求10所述的方法,其特征在于,步骤E中对所述query进行需求明确度分析具体包括:
如果所述query中含有动词,则确定所述query具有明确的需求;或者,
如果所述query中包含预设的需求词表中的词语,则确定所述query具有明确的需求,所述需求词表通过手工或数据挖掘的方式形成且包含具有明确需求的词语。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京百度网讯科技有限公司,未经北京百度网讯科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201110086824.1/1.html,转载请声明来源钻瓜专利网。