[发明专利]建立需求分析模板的方法、搜索需求识别的方法及装置在审
申请号: | 201110266799.5 | 申请日: | 2011-09-09 |
公开(公告)号: | CN102999496A | 公开(公告)日: | 2013-03-27 |
发明(设计)人: | 黄际洲 | 申请(专利权)人: | 北京百度网讯科技有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京鸿德海业知识产权代理事务所(普通合伙) 11412 | 代理人: | 袁媛 |
地址: | 100085 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 建立 需求 分析 模板 方法 搜索 识别 装置 | ||
1.一种建立需求分析模板的方法,其特征在于,分别针对预设的需求类型执行以下步骤:
S1、获取所述需求类型的种子query集合;
S2、确定所述种子query集合的所有n元词组n-gram,所述n为预设的一个或多个正整数;
S3、根据统计得到的各n-gram在所述需求类型的种子集合中的出现次数,将所述种子query集合的各种子query中N1个出现次数最低的n-gram替换为通配符,得到候选需求分析模板,所述N1为预设的正整数;
S4、对各候选需求分析模板进行置信度评分,选择置信度评分排在前N2个的候选需求分析模板作为所述需求类型的需求分析模板,所述N2为预设的正整数。
2.根据权利要求1所述的方法,其特征在于,所述步骤S1具体包括以下方式:
方式1、从所述需求类型垂直搜索的搜索日志中获取搜索次数高于预设第一阈值的query,构成所述需求类型的种子query集合;或者,
方式2、从所述需求类型的网页搜索的搜索日志中,获取对应于点击了所述需求类型的网站或点击了包含所述需求类型特征词的标题的query,并将获取的query中搜索次数高于预设第二阈值的query构成所述需求类型的种子query集合;或者,
方式3、将所述方式1获取的query和所述方式2获取的query取交集得到所述需求类型的种子query集合。
3.根据权利要求2所述的方法,其特征在于,在所述方式1中利用获取的query的点击次数与搜索次数的比值得到对应query的权值;或者,
在所述方式2中利用获取的query的点击次数与搜索次数的比值得到对应query的权值;或者,
在所述方式3中通过公式
4.根据权利要求1所述的方法,其特征在于,在所述步骤S3中预先设置替换为通配符的n-gram粒度,按照所述粒度执行将所述种子query集合的各种子query中N1个出现次数最低的n-gram或者出现次数低于预设次数阈值的n-gram替换为通配符的步骤。
5.根据权利要求1所述的方法,其特征在于,在所述步骤S3中执行所述替换的步骤之前还包括:将所述种子query集合的各query中命名实体的n-gram替换为命名实体类型标记。
6.根据权利要求1至5任一权项所述的方法,其特征在于,步骤S4中所述对各候选需求分析模板进行置信度评分具体包括:
对候选需求模板的特征参数值进行加权求和后得到该候选需求模板的置信度评分,其中所述特征参数包括以下所列的至少一种:
得到该候选需求模板的所有种子query的权值平均值、根据该候选需求模板所包含固定词个数的评分、根据该候选需求模板是否包含命名实体类型标记的评分以及根据该候选需求模板包含被替换n-gram个数的评分。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京百度网讯科技有限公司,未经北京百度网讯科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201110266799.5/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种核桃美发酒及泡制方法
- 下一篇:一种香精