[发明专利]一种识别用户检索意图的搜索方法和系统有效

专利信息
申请号: 201210404124.7 申请日: 2012-10-22
公开(公告)号: CN102880723A 公开(公告)日: 2013-01-16
发明(设计)人: 车天文;雷大伟;石志伟;周步恋;杨振东;王更生;王喜民;何宏靖;徐忆苏 申请(专利权)人: 深圳市宜搜科技发展有限公司
主分类号: G06F17/30 分类号: G06F17/30
代理公司: 深圳市世纪恒程知识产权代理事务所 44287 代理人: 胡海国
地址: 518026 广东省深圳市福田区滨*** 国省代码: 广东;44
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 识别 用户 检索 意图 搜索 方法 系统
【说明书】:

技术领域

本发明涉及信息检索领域,尤其涉及一种基于识别用户检索意图的搜索方法和系统。

背景技术

搜索引擎的出现,让用户有了可以从海量数据中查找信息的工具。但是并非每个用户都了解搜索引擎的原理,所以用户在使用搜索引擎的过程一般是自己组织检索关键字来搜索,结果不满意时再变换一下检索关键字来重新获得搜索结果。如何能让用户更少的输入,使用搜索引擎来更快的获取自己需要的信息,那就有一项非常重要的工作——如何根据用户输入的检索请求来挖掘、识别用户的潜在检索意图。一旦搜索引擎能够把握住用户检索的意图,就可以利用更少的资源来满足用户更大的需求。

截止目前为止,有关搜索引擎中用户检索意图识别的方法,可归纳不外乎以下几种:1、基于用户对搜索结果的点击信息;2、基于检索关键字的语义分析;3、基于检索关键字含有的特有的语义特征。

中国专利CN101782909A的专利(基于用户操作意图的搜索引擎)公开了一种基于用户对网页搜索和操作网页的记录来计算用户后续需求意向的方法。通过记录用户对网页的点击数、点击速率、网页速度、浏览时长、浏览次数和链接文字的操作,计算出用户对搜索结果的喜好分值和后续需求意向。当用户点击一个超链接时,搜索引擎要实时的计算一个喜好分值,并将链接上的文字和检索请求相联系起来,可认为是相关联。其不足之处在于:首先对搜索引擎要求高,要求搜索引擎实时的计算每个点击的分值,线上承载负荷会高;其次要求搜索引擎性能、效果稳定,搜索结果基本能满足用户的需求,否则记录的对结果的点击反馈将与用户实际需求相差太远;再次用户在搜索过程中的点击是多变的,多数时候是随意的,看到某个话题的链接,某个广告链接,可能都会点击进去查看,这样的点击信息其实是一种噪声,与检索请求关系不大,但是依然会被记录下来。最后也是很重要的一点,这样得到的结果作为一种意图,只是在后续有相同的检索请求时,才会将这类结果展现出来,使得召回较低。

中国专利CN102246164A的专利(基于用户意图的信息搜索以及信息提供方法)提供了一种基于对检索关键字分析结果来检测搜索者的意图的方法。该方法的实施是将关键字(可为单词单元、短语单元以及句子单元)按词性分离为语意单词,对分离后的关键字参考语法文法规则字典,执行语法分析,通过分析句子内分离后的单词是否具有任何文法关系以及语义关联,来获取所述语法表达式(逻辑表达式、修饰-被修饰以及语法列表表达式)进而来检测搜索者的意图。该方法不依赖于用户的搜索结果信息,是一种事前处理的方法,但不足之处是如何根据不同类型的检索意图做不同的分析,没有明确的方法。只能将检索关键字按每种词性全部处理一遍,得到的分析结果也会有多种形式,哪个最优不得而知。

基于事后搜索的检索意图识别,过分依赖于搜索结果和用户的反应,容易引入一些不必要的噪音(如广告、其它信息等),而且对搜索引擎有较高要求,在系统性能稳定,效果比较好的情况下才能支持。且在获取的用户检索意图的应用上,只能在后续用户输入相同的检索时起到借鉴作用,从而召回率较低。

基于事前检索意图识别,利用的信息较少,仅局限于检索的局部词汇的完全匹配,对明显检索意图的检索有一定的效果,但也容易造成局部最优问题,且对更多的无明显检索意图字眼的检索,无法给出意图结果。虽然可以对检索关键字做语义分析,但不同类别的检索,含有的词性分布不同,如果按每个词性分离造成的分析结果会有多样性,不容易进一步择优。

发明内容

针对上述技术问题,本发明提出一种识别用户检索意图的搜索方法和系统,从局部和整体上对检索关键字做意图识别的基础上进行搜索。

根据本发明的一方面,本发明提供的一种识别用户检索意图的搜索方法包括以下步骤:

接收用户的检索请求;

计算检索请求的意图特征相似度、实体词关联度、以及句法格式相似度三种度量;

综合上述三种度量的计算结果确定用户检索意图;

根据确定的用户检索意图进行搜索并输出搜索结果。

根据本发明的另一方面,本发明提供的一种识别用户检索意图的搜索系统包括接收模块、计算模块、确定模块和搜索模块,其中:

接收模块用于接收用户的检索请求;

计算模块用于计算检索请求的意图特征相似度、实体词关联度、以及句法格式相似度三种度量;

识别模块用于根据计算模块的计算的三种度量的权重确定用户检索意图;

搜索模块用于根据识别模块确定的用户检索意图进行搜索并输出搜索结果。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳市宜搜科技发展有限公司,未经深圳市宜搜科技发展有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201210404124.7/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top