[发明专利]一种用于基于查询序列簇提取核心关键词的方法与设备有效
申请号: | 201010592207.4 | 申请日: | 2010-12-08 |
公开(公告)号: | CN102043845A | 公开(公告)日: | 2011-05-04 |
发明(设计)人: | 张超;忻舟;王强 | 申请(专利权)人: | 百度在线网络技术(北京)有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京汉昊知识产权代理事务所(普通合伙) 11370 | 代理人: | 罗朋 |
地址: | 100085 北京*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 用于 基于 查询 序列 提取 核心 关键词 方法 设备 | ||
1.一种计算机实现的用于基于查询序列簇提取核心关键词的方法,其中,该方法包括以下步骤:
a获取查询序列簇,其中,所述查询序列簇包括多个查询序列,其中每个查询序列对应至少一个相同的用户点击的搜索结果;
b从所述查询序列簇中提取与所述查询序列簇相对应的核心关键词。
2.根据权利要求1所述的方法,其中,所述步骤b还包括:
b1从所述查询序列簇中的每个查询序列中,提取与所述每个查询序列相对应的切分块;
b2根据所述切分块,按照预定筛选规则,获取与所述查询序列簇相对应的核心关键词。
3.根据权利要求2所述的方法,其中,所述步骤b2中的所述预定筛选规则包括以下至少任一项:
-所述切分块在所述查询序列簇中的出现频次超过第一阈值;
-所述切分块在所述查询序列簇中的覆盖比例超过第二阈值;
-所述切分块的组词概率超过第三阈值;
-如果所述切分块中包括停留字,则筛除所述切分块。
4.根据权利要求2或3所述的方法,其中,所述步骤b1还包括:
-根据所述查询序列簇的统计相关信息,从所述查询序列簇中的每个查询序列中,提取与所述每个查询序列相对应的切分块。
5.根据权利要求4所述的方法,其中,所述步骤b1还包括:
-根据所述查询序列簇中每个基本粒度词的统计检索量,与所述查询序列簇中由所述每个基本粒度词为首、另一个基本粒度词为尾组成的片段的统计出现频次,获得所述统计相关信息。
6.根据权利要求1至5中任一项所述的方法,其中,该方法还包括:
c对所述核心关键词在预设词库中进行匹配查询,以获得目标新词。
7.根据权利要求6所述的方法,其中,所述步骤c还包括:
-结合预定过滤规则,对所述核心关键词在预设词库中进行匹配查询,以获得目标新词。
8.根据权利要求7所述的方法,其中,所述预定过滤规则包括以下至少任一项:
-所述核心关键词的粒度超过第四阈值;
-所述核心关键词的关联词集合的信息熵超过第五阈值;
-所述核心关键词的紧密度低于第六阈值。
9.根据权利要求8所述的方法,其中,所述预定过滤规则还包括所述核心关键词的关联词集合的信息熵超过第五阈值;
其中,所述关联词集合的选择基于以下至少任一项:
-所述关联词集合中关联词在搜索引擎查询日志中的累计频次超过第七阈值;
-当所述关联词集合中关联词的个数低于第八阈值时,不对所述关联词集合获取信息熵。
10.根据权利要求1至9中任一项所述的方法,其中,所述步骤a还包括:
-获取对应至少一个相同的用户点击的搜索结果的多个查询序列,以得到所述查询序列簇。
11.一种用于基于查询序列簇提取核心关键词的提取设备,其中,该提取设备包括:
获取装置,用于获取查询序列簇,其中,所述查询序列簇包括多个查询序列,其中每个查询序列对应至少一个相同的用户点击的搜索结果;
提取装置,用于从所述查询序列簇中提取与所述查询序列簇相对应的核心关键词。
12.根据权利要求11所述的提取设备,其中,所述提取装置还包括:
提取单元,用于从所述查询序列簇中的每个查询序列中,提取与所述每个查询序列相对应的切分块;
筛选单元,用于根据所述切分块,按照预定筛选规则,获取与所述查询序列簇相对应的核心关键词。
13.根据权利要求12所述的提取设备,其中,所述筛选单元中的所述预定筛选规则包括以下至少任一项:
-所述切分块在所述查询序列簇中的出现频次超过第一阈值;
-所述切分块在所述查询序列簇中的覆盖比例超过第二阈值;
-所述切分块的组词概率超过第三阈值;
-如果所述切分块中包括停留字,则筛除所述切分块。
14.根据权利要求12或13所述的提取设备,其中,所述提取单元还用于:
-根据所述查询序列簇的统计相关信息,从所述查询序列簇中的每个查询序列中,提取与所述每个查询序列相对应的切分块。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于百度在线网络技术(北京)有限公司,未经百度在线网络技术(北京)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201010592207.4/1.html,转载请声明来源钻瓜专利网。