[发明专利]基于贝叶斯分类学习的搜索引擎检索排序方法在审
申请号: | 201310083151.3 | 申请日: | 2013-03-15 |
公开(公告)号: | CN103123653A | 公开(公告)日: | 2013-05-29 |
发明(设计)人: | 贾德星;徐正礼;魏金雷 | 申请(专利权)人: | 山东浪潮齐鲁软件产业股份有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 250100 山东*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 贝叶斯 分类 学习 搜索引擎 检索 排序 方法 | ||
技术领域
本发明涉及一种计算机应用领域,具体地说是一种基于贝叶斯分类学习的搜索引擎检索排序方法。
背景技术
传统的搜索引擎在对索引库进行检索查询时一般是根据查询语句与索引文档之间的相似程度进行评分,相似度高的文档得分高,然后根据评分从高到低进行排序后将检索结果返回给查询用户。相似度的计算一般是通过TF-IDF方法对查询词和文档分别进行特征向量化后,计算特征向量相似性得到评分。具体的相似度计算方法可能有很多,但都是基于文档的静态特征进行比较计算,而很难处理词义的多样性及上下文关系的查询场景。也不能及时的反映用户对热点查询词、热点索引文档的检索需求。
发明内容
本发明的技术任务是针对上述现有技术的不足,提供一种基于贝叶斯分类学习的搜索引擎检索排序方法。利用该方法可以改进、优化搜索引擎中检索结果的排序,从而提高搜索引擎的检索精度,有利于用户更加快速的检索到自己需要的结果。
本发明的技术任务是按以下方式实现的:基于贝叶斯分类学习的搜索引擎检索排序方法,其特点是:将查询语句做为n维特征向量B={b1,b2,…,bn},将索引文档做为分类A,使用贝叶斯分类算法对用户搜索行为数据进行训练,从而建立查询词-点击文档的分类模型;在对检索结果进行评分时,根据查询语句与索引文档特征向量的相似度评分值与所属分类的概率值进行组合计算,得到新的评分值,并根据新的评分值对检索结果重新排序后返回给检索客户端。
上述方法的实现包括以下具体步骤:
A.记录用户查询日志
在搜索引擎中使用日志组件记录用户查询行为数据,日志内容包括:用户标识、查询语句、查询时间、检索到的结果文档数、用户点击的文档标识;
B.训练贝叶斯分类模型
逐条解析日志组件中记录的用户查询行为数据,把查询语句进行分词得到n维特征向量B={b1,b2,…,bn},其中的b1…bn代表用户查询语句分词之后的单词,并将用户点击的文档A做为分类,然后使用贝叶斯分类算法对行为数据进行训练,计算得到P(A)、P(B)、P(B|A),从而建立查询词-点击文档的分类模型;
C.检索结果排序计算
① 首先采用传统的文档特征向量相似度计算方法,根据用户查询语句B检索索引库,得到前n个索引文档的结果集-doc(n),其中包括文档标识-id及评分-score;
② 调用贝叶斯学习系统,计算得到查询语句B所属的前m个分类集合-classfiler(m),其中包括文档标识-id及概率值-p;
③ 对doc(n)中文档重新计算评分,公式: =+,其中代表文档n的相似度计算评分,代表文档n的概率值,如果文档n没有出现在classfiler(m)集合中则设置=0,则代表文档n的最终得分;
④ 根据doc(n)各文档的最终得分重新进行排序,并按新的排序结果返回给检索代理。
步骤2中,分类模型的训练采用单机方式或分布式计算的方式完成。
步骤2中,训练得到的分类模型存储在文件、数据库或内存中。
在计算文档n的最终得分时,也可以采用相乘的方法,即:=×,此时对于=0的文档n可以设置一个标准化的概率值(最小概率值或平均概率值),以避免将文档n评分为0。
与现有技术相比,本发明方法具有以下突出的有益效果:
(一) 通过分析用户的搜索行为日志并应用贝叶斯分类学习,改进、优化了搜索引擎的查询结果,帮助用户更加快速的查询到所需结果。根据日志数据的统计分析表明,应用本方法之后,用户每次查询语句的检索结果平均翻页次数可以减少50%;
(二) 通过为每个单独的用户建立分类模型,还可以构建更加个性化的、属于用户自己的搜索引擎,从而进一步提高搜索引擎的查询体验。
附图说明
附图1是本发明基于贝叶斯分类学习的搜索引擎检索排序方法的工作模型图。
具体实施方式
参照说明书附图以具体实施例对本发明的基于贝叶斯分类学习的搜索引擎检索排序方法作以下详细地说明。
实施例:
如附图所示,本发明的基于贝叶斯分类学习的搜索引擎检索排序方法把查询语句做为已知条件B,所点击的文档做为A,然后计算用户在查询语句B时所点击的文档A的概率,并将此概率值P(A/B)与文档特征向量比较得到的评分进行相加或相乘得到各文档的最终得分。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于山东浪潮齐鲁软件产业股份有限公司,未经山东浪潮齐鲁软件产业股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310083151.3/2.html,转载请声明来源钻瓜专利网。