[发明专利]确定搜索词权重值方法及装置、搜索结果生成方法及装置有效
申请号: | 201010207880.1 | 申请日: | 2010-06-18 |
公开(公告)号: | CN102289436A | 公开(公告)日: | 2011-12-21 |
发明(设计)人: | 郭祥 | 申请(专利权)人: | 阿里巴巴集团控股有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 逯长明;王宝筠 |
地址: | 英属开曼群岛大开曼*** | 国省代码: | 开曼群岛;KY |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 确定 搜索词 权重 方法 装置 搜索 结果 生成 | ||
技术领域
本申请涉及计算机应用领域,特别是涉及一种确定搜索词权重值的方法及装置、搜索结果生成方法及装置。
背景技术
信息搜索系统是一种能够为用户提供信息检索服务的系统,以互联网中常用的搜索引擎为例,作为应用在互联网领域的搜索系统,搜索引擎目前已经成为用户上网必不可少的辅助工具之一。从用户的角度看,搜索引擎一般提供一个包含搜索框的页面,用户在搜索框输入查询串,通过浏览器提交给搜索引擎后,搜索引擎就会返回与用户输入的查询串内容相匹配的信息。
对于用户输入的搜索请求,可以由一个或多个搜索词组成。当用户输入的搜索请求由多个搜索词组成时,搜索系统首先对用户输入的搜索请求进行分词,得到多个搜索词,再以搜索词为单位匹配数据库中的信息。然后,系统按照各搜索词的重要性对各搜索词分别匹配到的信息进行排序,返回搜索结果展现给用户。
现有技术中,对于各搜索词重要性的划分往往是统计各搜索词的词频得到的。具体的,系统定期对数据库中保存的用户的历史搜索信息进行统计,得到各搜索词出现的频率,作为搜索词对应的词频。词频较高的搜索词被认为是比较重要的;而词频偏低的搜索词则被认为是不太重要的。
通过对现有技术的研究,发明人发现现有技术中采用词频确定各搜索词的重要性存在的问题是:首先,词频统计时会包括大量的噪音词,影响统计结果;其次,根据历史搜索信息统计词频,使得查询次数不多但很有价值的搜索词很容易被忽视。这导致利用现有技术得到的各搜索词的重要性对搜索结果的排序不是十分合理,增加了用户的查询时间,甚至导致用户重新输入搜索词进行搜索,增加了服务器的负担和能耗。
发明内容
为解决上述技术问题,本申请提供了一种确定搜索词权重值的方法及装置、一种搜索结果生成方法及装置,可以更为合理的确定用户输入的搜索请求中各搜索词的重要性。
本申请提供一种确定搜索词权重值的方法,包括以下步骤:
接收输入的搜索请求和点击信息,生成搜索信息日志,保存入数据库;
统计数据库中保存的所述搜索信息日志,生成类目分布词表;
从数据库中提取属性词表,优化所述类目分布词表;
根据优化后的所述类目分布词表,计算所述类目分布词表中各搜索词的权重值。
本申请还提供一种搜索结果生成方法,包括以下步骤:
接收输入的搜索请求,获取所述搜索请求中各搜索词对应的权重值;
将各搜索词对应的匹配信息按照各搜索词对应的权重值排序;
其中,各搜索词对应的权重值通过下述步骤得到:
接收输入的搜索请求和点击信息,生成搜索信息日志,保存入数据库;
统计数据库中保存的所述搜索信息日志,生成类目分布词表;所述类目分布词表包括:搜索词、所述搜索词对应的搜索类目、所述搜索词对应的各搜索类目的搜索概率;
从数据库中提取属性词表,优化所述类目分布词表;具体为:依次判断所述类目分布词表中各搜索词是否属于所述属性词表,如果是,滤除所述搜索词对应的搜索概率低于预设的第一阈值的搜索类目;如果否,将所述搜索词对应的各搜索类目的搜索概率平均化;
根据优化后的所述类目分布词表,计算所述类目分布词表中各搜索词的权重值。
本申请还提供一种确定搜索词权重值的装置,包括:
日志生成模块,用于接收输入的搜索请求和点击信息,生成搜索信息日志,保存入数据库;
词表生成模块,用于统计数据库中保存的所述搜索信息日志,生成类目分布词表;所述类目分布词表包括:搜索词、所述搜索词对应的搜索类目、所述搜索词对应的各搜索类目的搜索概率;
词表优化模块,用于从数据库中提取属性词表,优化所述类目分布词表;
权重计算模块,用于根据优化后的所述类目分布词表,计算所述类目分布词表中各搜索词的权重值。
本申请还提供一种搜索结果生成装置,包括:
日志生成模块,用于接收输入的搜索请求和点击信息,生成搜索信息日志,保存入数据库;
词表生成模块,用于统计数据库中保存的所述搜索信息日志,生成类目分布词表;所述类目分布词表包括:搜索词、所述搜索词对应的搜索类目、所述搜索词对应的各搜索类目的搜索概率;
词表优化模块,用于从数据库中提取属性词表,优化所述类目分布词表;
权重计算模块,用于根据优化后的所述类目分布词表,计算所述类目分布词表中各搜索词的权重值;
权重提取模块,用于接收输入的搜索请求,获取所述搜索请求中各搜索词对应的权重值;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于阿里巴巴集团控股有限公司,未经阿里巴巴集团控股有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201010207880.1/2.html,转载请声明来源钻瓜专利网。
- 上一篇:带钢清洗设备
- 下一篇:一种碳钢酸洗液及其应用