[发明专利]一种搜索方法和系统有效

专利信息
申请号: 201210035724.0 申请日: 2012-02-16
公开(公告)号: CN102609539A 公开(公告)日: 2012-07-25
发明(设计)人: 张帆 申请(专利权)人: 北京搜狗信息服务有限公司;北京搜狗科技发展有限公司
主分类号: G06F17/30 分类号: G06F17/30
代理公司: 北京润泽恒知识产权代理有限公司 11319 代理人: 苏培华
地址: 100084 北京市海淀区中关*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 搜索 方法 系统
【说明书】:

技术领域

本申请涉及网络技术领域,特别是涉及一种搜索方法和系统。

背景技术

在搜索领域,经常需要分析用户输入的查询词相关的分类,即分析用户的查询意图,然后基于该查询词相关的分类或者说用户的查询意图针对性的展示相关站点给用户。随着这种趋势的发展,用户的查询意图识别成为搜索引擎中非常重要的一个领域。一般来说,对于用户输入的查询词,该查询词在客观上会属于某一个类别,比如对于用户输入的“单反相机”这个查询词,“单反相机”客观上可属于摄像器材类行业,即对于用户来说,其输入的查询词具有对应该行业的查询意图。在传统的通用搜索引擎中,一般只根据网站的权重和查询词的匹配情况对结果进行展现,基本上没有在用户查询意图层面进行考虑,即用户输入的查询词和网站的相关性,无法针对性的做出相应展示,也无法更精准更客观的将查询结果展现给用户。针对上述情况,现有技术中设计并运用了类别查询的方法,判断查询词所属的相关类别,然后将查询结果中对应类别的查询结果整理展示给用户端。

现有技术中,进行类别查询时,多以手工标注,分析用户点击行为等方法来获取用户输入的查询词与某些行业类别的相关性。

手工标注的方法一般是通过手工标注出有行业需求查询词,以此为训练数据来训练分类模型,来获取用户输入的查询词与某些行业类别网站的相关性,该方法由于采用人工进行标注行业需求查询词,导致获取成本高,代价太大,且主观性较强。

分析用户点击行为的方法包括两种方法:其一是通过用户点击行为来获取行业需求查询词,以此为训练数据来训练分类模型,来获取用户输入的查询词与某些行业类别网站的相关性;其二是通过用户在行业站点中的搜索行为来获取行业需求查询词,以此为训练数据来训练分类模型来获取用户输入的查询词与某些行业类别网站的相关性。上述两种方法由于用户的点击行为存在一定的非理性因素等原因,比如对于一些小众的行业类别,可能不存在用户查询点击的历史记录,或者用户在行业网站内输入了非该行业的查询词,导致基于用户点击行为相关历史数据所建立的模型不够准确,从而导致判断用户输入的查询词与某些行业类别网站的相关性时出现偏差;并且,由于受行业站点自身的限制,使用户点击行为数据获取的代价高昂并且受数据量的限制,用户点击行为数据获取的门槛高,获取方式不够便捷,导致数据难以获取,且不能保证搜索结果中强相关类别对应的搜索结果被优先显示。

发明内容

本申请所要解决的技术问题是提供一种搜索方法和系统,能更客观、更精确、更便捷的分析用户输入的查询词与行业类别的相关性,可更客观、更精确、更便捷与查询词展现相关的搜索结果。

为了解决上述问题,本申请公开了一种搜索方法,其特征在于,包括:

接收用户端输入的查询词,并获取对应的第一初始搜索结果;

利用各分类对应的强相关分类特征集合对所述第一初始搜索结果进行匹配分析,获得所述查询词与各强相关分类特征集合相应分类的相关性分析结果;所述强相关分类特征集合通过通用搜索引擎对随机词集合的搜索结果和分类词集合的搜索结果进行比较处理得到;

当所述查询词与特定分类对应的强相关分类特征集合的相关性分析结果符合判定条件时,则所述查询词与所述强相关分类特征集合相应的分类强相关,从第一初始搜索结果中提取所述分类的搜索结果并展示给用户端。

优选的,所述强相关分类特征集合分别包括一行业类别对应的特征信息;通过如下步骤获取,包括:

获取第二初始搜索结果集合中的特征信息和第三初始搜索结果集合中的特征信息;所述第二初始搜索结果集合通过将随机词集合输入通用搜索引擎获得,所述第三初始搜索结果集合通过将初始分类词集合输入通用搜索引擎获得;

将第二初始搜索结果集合中的各特征信息的出现频率与所述特征信息在第三初始搜索结果集合中的各特征信息的出现频率进行比较分析,并将比较分析对应的特征信息存入与初始分类词集合所在分类相应的强相关分类特征集合。

优选的,所述特征信息包括网址和/或文本信息;所述强相关分类特征集合包括行业类别对应的网址列表和/或语言模型,对应记录所述特征信息。

优选的,将第二初始搜索结果集合中的各特征信息的出现频率与第三初始搜索结果集合中各特征信息的出现频率进行比较分析时:

将第二初始搜索结果集合中各网址的出现频率与所述网址在所述第三初始搜索结果集合中的出现频率进行比较;当比较结果大于强需求阈值时,将所述网址存入与初始分类词集合所在分类相应的强相关分类特征集合;和/或,

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京搜狗信息服务有限公司;北京搜狗科技发展有限公司,未经北京搜狗信息服务有限公司;北京搜狗科技发展有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201210035724.0/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top