[发明专利]查询词权重值的确定方法和装置有效
申请号: | 201510064123.6 | 申请日: | 2015-02-06 |
公开(公告)号: | CN104615723B | 公开(公告)日: | 2018-08-07 |
发明(设计)人: | 张军 | 申请(专利权)人: | 百度在线网络技术(北京)有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京品源专利代理有限公司 11332 | 代理人: | 路凯;崔雪青 |
地址: | 100085 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 查询词 权重 查询日志信息 方法和装置 分类处理 差异性 日志信息处理 查询操作 计算模块 搜索引擎 式中 文档 搜索 查询 优化 网络 | ||
本发明实施例公开了一种查询词权重值的确定方法和装置。所述方法包括:按照设定规则对查询日志信息进行分类处理;根据查询词在至少两类查询日志信息中出现的差异性,确定查询词的权重值。所述装置包括:日志信息处理模块,用于按照设定规则对查询日志信息进行分类处理;权重值计算模块,根据查询词在至少两类查询日志信息中出现的差异性,确定查询词的权重值。本发明解决了现有的查询词权重值由网络中包含该查询词的文档数目所决定,与查询词在该查询式中的重要程度有较大偏差技术问题,优化现有的查询词权重值确定技术,使得计算得到的查询词权重值与用户实际的查询操作密切相关,提高了查询词权重值的准确性以及搜索引擎的搜索效果。
技术领域
本发明实施例涉及数据处理技术,尤其涉及一种查询词权重值的确定方法和装置。
背景技术
随着互联网技术的不断发展以及互联网应用对人们工作、学习与生活的不断渗透,人们越来越多的通过网络获取信息。典型的,用户通过搜索引擎输入查询式(Query),搜索引擎通过采用一定的搜索排序方式向用户返回与输入查询式相匹配的搜索结果。其中,搜索引擎在处理用户输入的查询式时,会给查询式中包括的查询词(Term)赋予不同的权重来反映不同查询词在查询式当中的重要程度(也称为Term重要性),搜索引擎通过联合使用查询式当中的Term重要性以及查询式与网络中文档(典型的,网页)的匹配程度对搜索结果进行排序,并提供给用户。
现有技术主要通过IDF(Inverse Document Frequency,逆文档频率)方法来计算查询词的权重值,即通过文档集合中所有文档的数目除以包含某个查询词的文档的数目,再将得到的商取对数的结果,作为该查询词的权重值。现有技术的主要缺陷在于查询词权重值由网络中包含该查询词的文档数目所决定,与查询词在该查询式中的重要程度有较大偏差。
发明内容
有鉴于此,本发明实施例提供一种查询词权重值的确定方法和装置,以优化现有的查询词权重值确定技术,提高所确定的查询词重要程度的准确性。
在第一方面,本发明实施例提供了一种查询词权重值的确定方法,包括:
按照设定规则对查询日志信息进行分类处理;
根据查询词在至少两类所述查询日志信息中出现的差异性,确定所述查询词的权重值。
在第二方面,本发明实施例提供了一种查询词权重值的确定装置,包括:
查询日志处理模块,用于按照设定规则对查询日志信息进行分类处理;
权重值确定模块,用于根据查询词在至少两类所述查询日志信息中出现的差异性,确定所述查询词的权重值。
本发明实施例通过按照设定规则对查询日志信息进行分类处理;根据查询词在至少两类所述查询日志信息中出现的差异性,确定所述查询词的权重值的技术手段,解决了现有技术在计算查询词权重值时仅仅根据网络中查询词的文档数目,而不考虑用户实际输入的查询式以及实际点击的搜索结果的技术问题,优化了现有的查询词权重值确定技术,使得计算得到的查询词权重值与用户实际的查询操作密切相关,提高了查询词权重值的准确性以及搜索引擎的搜索效果。
附图说明
图1是本发明第一实施例的一种查询词权重值的确定方法的流程图;
图2是本发明第二实施例的一种查询词权重值的确定方法的流程图;
图3是本发明第三实施例的一种查询词权重值的确定方法的流程图;
图4是本发明第三实施例所应用的一种搜索引擎的查询系统的实现框图;
图5是本发明第四实施例的一种查询词权重值的确定装置的结构图。
具体实施方式
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于百度在线网络技术(北京)有限公司,未经百度在线网络技术(北京)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510064123.6/2.html,转载请声明来源钻瓜专利网。
- 上一篇:内弹式接插件及电能表
- 下一篇:存储资源分配方法及装置