[发明专利]建立需求分析模板的方法、搜索需求识别的方法及装置在审

专利信息
申请号: 201110266799.5 申请日: 2011-09-09
公开(公告)号: CN102999496A 公开(公告)日: 2013-03-27
发明(设计)人: 黄际洲 申请(专利权)人: 北京百度网讯科技有限公司
主分类号: G06F17/30 分类号: G06F17/30
代理公司: 北京鸿德海业知识产权代理事务所(普通合伙) 11412 代理人: 袁媛
地址: 100085 北京市*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 建立 需求 分析 模板 方法 搜索 识别 装置
【说明书】:

【技术领域】

发明涉及计算机技术领域,特别涉及一种建立需求分析模板的方法、搜索需求识别的方法和装置。

【背景技术】

随着互联网在全球范围内的迅速发展与成熟,网络上的信息资源不断丰富,信息数据量也在飞速膨胀,通过搜索引擎获取信息已经成为现代人获取信息的主要方式。为了向用户提供更加便捷、准确地查询服务是搜索引擎技术在当今和未来的发展方向。

在搜索引擎技术中,对用户的搜索需求进行识别是提高搜索准确性和有效性的重要一环,特别在结构化搜索(即垂直搜索)中作用显著。经分析发现,用户在使用query表述搜索需求时,表达方式通常体现出一定的规律性。比如用户在查询小说类需求时,可能会输入如下query:“男主角很帅的小说”、“男主角是同性恋的小说”、“男主角是武林高手的小说”等,这些query都遵循一种特定的表达模式,即:男主角【W+】的小说,其中【W+】为通配符。如果将这一表达模式作为小说类需求的一种,则可以很容易识别出“男主角失恋的小说”、“男主角很man的小说”等query为小说类需求。因此,便衍生出了基于需求分析模板的需求识别方式,而现有的需求分析模板是通过观察常用query的特性人工建立的,这种方式存在以下缺陷:

缺陷一、需求分析模板的数量较少,人工总结出的模板一般都是几百个左右,适用面较窄。

缺陷二、需要人工参与,耗费人力成本。

缺陷三、召回率较低。通常人工总结出的模板可能与用户最终输入的query形式上存在差别,这种不完全一致就造成很多query无法识别出需求类型。

缺陷四、识别准确率低。人工总结、编写的模板,准确率较难得到全面的检验与保证,比如人观察到有图片需求的query“桌面背景”、“Windows桌面背景”,就编写出模板“【W+】背景”,用于识别有图片需求的query时,由该模板所带来的错误就会很多,比如将没有图片背景的query“药家鑫背景”、“父亲的背景”等错误地识别出有图片需求。

【发明内容】

本发明提供了一种建立需求分析模板的方法、搜索需求识别的方法和装置,以便于节约人力成本,扩大适用面以及提高识别准确率。

具体技术方案如下:

一种建立需求分析模板的方法,分别针对预设的需求类型执行以下步骤:

S1、获取所述需求类型的种子query集合;

S2、确定所述种子query集合的所有n元词组n-gram,所述n为预设的一个或多个正整数;

S3、根据统计得到的各n-gram在所述需求类型的种子集合中的出现次数,将所述种子query集合的各种子query中N1个出现次数最低的n-gram替换为通配符,得到候选需求分析模板,所述N1为预设的正整数;

S4、对各候选需求分析模板进行置信度评分,选择置信度评分排在前N2个的候选需求分析模板作为所述需求类型的需求分析模板,所述N2为预设的正整数。

根据本发明一优选实施例,所述步骤S1具体包括以下方式:

方式1、从所述需求类型垂直搜索的搜索日志中获取搜索次数高于预设第一阈值的query,构成所述需求类型的种子query集合;或者,

方式2、从所述需求类型的网页搜索的搜索日志中,获取对应于点击了所述需求类型的网站或点击了包含所述需求类型特征词的标题的query,并将获取的query中搜索次数高于预设第二阈值的query构成所述需求类型的种子query集合;或者,

方式3、将所述方式1获取的query和所述方式2获取的query取交集得到所述需求类型的种子query集合。

根据本发明一优选实施例,在所述方式1中利用获取的query的点击次数与搜索次数的比值得到对应query的权值;或者,

在所述方式2中利用获取的query的点击次数与搜索次数的比值得到对应query的权值;或者,

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京百度网讯科技有限公司,未经北京百度网讯科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201110266799.5/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top