[发明专利]一种基于主题的搜索方法和装置在审
申请号: | 201210166852.9 | 申请日: | 2012-05-25 |
公开(公告)号: | CN103425710A | 公开(公告)日: | 2013-12-04 |
发明(设计)人: | 方高林;王海峰 | 申请(专利权)人: | 北京百度网讯科技有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F17/28 |
代理公司: | 北京鸿德海业知识产权代理事务所(普通合伙) 11412 | 代理人: | 袁媛 |
地址: | 100085 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 主题 搜索 方法 装置 | ||
【技术领域】
本发明涉及计算机技术领域,特别涉及一种基于主题的搜索方法和装置。
【背景技术】
随着计算机网络技术的不断发展,搜索引擎已经成为人们获取信息的重要手段,用户通过搜索引擎输入搜索项(query),搜索引擎从抓取到的文档中搜索与query相关的文档,并按照相关程度进行排序。广泛采用的搜索模型是向量空间模型,它的基本思想是将query和文档分别表示成词向量的形式,向量的权重可以是词出现的频率(TF)或者词频-逆文档频率(TF-IDF),然后计算query的词向量和文档的词向量之间的相似度作为相关性的度量。在实际应用中,有各种各样的变种,但本质上都是计算query和文档中匹配的关键词,并赋予权重。
也就是说,传统的搜索基于关键词匹配的方式,这就会造成以下两种情况:
其一、在没有出现或者出现很少相同关键词的情况下,即使实际内容反映了query需求的文档也很难排在前面,甚至无法召回。例如用户输入query“好看的林肯”,有些文档中包含“流线型设计的林肯”、“白色、黑色或红色的林肯”等虽然也涉及到林肯的外观,但由于并没有出现关键词“好看的”,可能无法召回或者无法排在靠前的位置,但实际上这些文档反映出了用户想要搜索到关于林肯好看的外观的文档。
其二、有些query存在表达冗余的现象,这就会导致没有匹配上其中的冗余词的文档无法召回或者无法排在靠前的位置。例如用户输入query“离婚后对前夫仍仇恨怎么办”,由于其中“离婚”是冗余词,对于有些文档虽然内容是关于对前夫仍仇恨的解决方案,但由于其没有匹配上关键词“离婚”而无法被召回或无法排在靠前的位置。
【发明内容】
有鉴于此,本发明提供了一种基于主题的搜索方法和装置,以便于提高搜索召回率和准确性。
具体技术方案如下:
一种基于主题的搜索方法,利用主题分析模型对文档库中各文档进行主题分析,确定各文档对应的主题分布,该方法还包括:
S1、利用主题分析模型对用户输入的query进行主题分析,确定所述query对应的主题分布;
S2、利用所述query对应的主题分布与各文档对应的主题分布,计算所述query与各文档的主题匹配度;
S3、利用主题匹配度得到所述query与各文档的匹配度,依据所述query与各文档的匹配度确定所述query的搜索结果。
根据本发明一优选实施例,所述主题分析模型包含:各主题对应的主题词以及各主题词在所属主题的权值。
根据本发明一优选实施例,所述主题分析模型为概率潜在语义分析PLSA模型或潜在狄利克雷分配LDA模型。
根据本发明一优选实施例,所述主题词包括以下至少一种:领域词、多义词的二元组合、实体词或者实体词的组合。
根据本发明一优选实施例,在所述主题分析模型的训练过程中,在从文档中提取主题词时,进一步基于统计的方式提取主题词的语义相关词,将各主题词的语义相关词分别作为训练语料中的一个文档以参与主题分析模型的训练。
根据本发明一优选实施例,所述利用主题分析模型对文档库中各文档进行主题分析,确定各文档对应的主题分布具体包括:
A1、对文档库中各文档进行分词处理,从分词结果中选择满足统计要求的词语作为主题词,分别得到各文档的主题词集合;
A2、将各文档对应的主题词集合输入所述主题分析模型,得到各文档所映射到的主题以及映射到各主题上的概率。
根据本发明一优选实施例,所述从分词结果中选择满足统计要求的词语作为主题词包括:
对所述分词结果进行聚类,从包含的词语数量满足预设数量要求的类别中选择出现次数排在前M个的词语作为主题词,所述M为正整数。
根据本发明一优选实施例,所述步骤S1具体包括:
S11、对用户输入的query进行分词处理,从分词结果中选择满足逆文档频率IDF统计要求的词语作为主题词,利用选择出的主题词构成所述query对应的主题词集合,或者进一步对选择出的主题词进行相关词扩展,利用选择出的主题词和扩展得到的相关词构成所述query对应的主题词集合;
S12、将所述query对应的主题词集合输入所述主题词分析模型,得到所述query映射到的主题以及映射到各主题上的概率。
根据本发明一优选实施例,计算所述query与各文档的主题匹配度包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京百度网讯科技有限公司,未经北京百度网讯科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210166852.9/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种用于生产玻璃盖板的新型网版
- 下一篇:一种双饰面板的生产设备