[发明专利]类别专名挖掘方法及装置在审
申请号: | 201410601567.4 | 申请日: | 2014-10-31 |
公开(公告)号: | CN104331456A | 公开(公告)日: | 2015-02-04 |
发明(设计)人: | 费晓旭;李兴建;唐国华 | 申请(专利权)人: | 百度在线网络技术(北京)有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京品源专利代理有限公司 11332 | 代理人: | 路凯;胡彬 |
地址: | 100085 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 类别 专名 挖掘 方法 装置 | ||
1.一种类别专名挖掘方法,其特征在于,包括:
将预设的目标类别下的至少一个种子词,与查询句/词集合中的查询句/词进行匹配,得到与所述至少一个种子词对应的至少一个目标类别模板,其中所述查询句/词集合为用户在搜索引擎中输入的历史查询句/词组成的集合;
将至少一个目标类别模板,与所述查询句/词集合中的查询句/词进行匹配,得到所述目标类别下与所述至少一个目标类别模板对应的至少一个候选专名。
2.根据权利要求1所述的类别专名挖掘方法,其特征在于,将预设的目标类别下的至少一个种子词,与查询句/词集合中的查询句/词进行匹配,得到与所述至少一个种子词对应的至少一个目标类别模板,包括:
针对预设的目标类别下的至少一个种子词中的每个种子词,分别与查询句/词集合中的各个查询句/词进行匹配,以判断查询句/词集合中的各个查询句/词是否包含该种子词;
如果所述查询句/词集合中的查询句/词包含该种子词,则基于包含该种子词的查询句/词中除该种子词之外的剩余部分,得到与该种子词对应的目标类别模板;或者
针对查询句/词集合中的各个查询句/词,分别与预设的目标类别下的至少一个种子词中的每个种子词进行匹配,以判断该查询句/词是否包含种子词;
如果该查询句/词中包含种子词,则基于该查询句/词中除所包含的种子词之外的剩余部分,得到与所包含的种子词对应的目标类别模板;
将至少一个目标类别模板,与所述查询句/词集合中的查询句/词进行匹配,得到所述目标类别下与所述至少一个目标类别模板对应的至少一个候选专名,包括:
针对至少一个目标类别模板中的每个模板,与所述查询句/词集合中的各个查询句/词进行匹配,以判断所述查询句/词集合中的各个查询句/词是否包含该模板;
如果查询句/词集合中的查询句/词包含该模板,则基于包含该模板的查询句/词中除该模板之外的剩余部分,得到与该模板对应的候选专名;或者
针对查询句/词集合中的各个查询句/词,与至少一个目标类别模板中的每个模板进行匹配,以判断该查询句/词是否包含模板;
如果该查询句/词中包含模板,则基于该查询句/词中除所述所包含的模板之外的剩余部分,得到与所包含的模板对应的候选专名。
3.根据权利要求1或2所述的类别专名挖掘方法,其特征在于,在得到所述目标类别下与所述至少一个目标类别模板对应的至少一个候选专名之后,还包括:
根据至少一个目标类别模板中各模板的权重,以及与各模板对应的候选专名,确定所述至少一个候选专名中各个候选专名的权重;其中任一候选专名的权重为:与所述任一候选专名对应的所有目标类别模板的权重之和;
依据各个候选专名的权重,确定目标类别下的至少一个挖掘专名。
4.根据权利要求3所述的类别专名挖掘方法,其特征在于,在将预设的目标类别下的至少一个种子词,与查询句/词集合中的查询句/词进行匹配,得到与所述至少一个种子词对应的至少一个目标类别模板之后,且根据至少一个目标类别模板中各模板的权重,以及与各模板对应的候选专名,确定各个候选专名的权重之前,还包括:
生成与至少一个目标类别模板中的每个模板相对应的权重;其中任一模板的权重为与该模板对应的种子词的个数。
5.根据权利要求4所述的类别专名挖掘方法,其特征在于,在得到所述目标类别下与所述至少一个目标类别模板对应的至少一个候选专名,且生成与至少一个目标类别模板中的每个模板相对应的权重之后,在根据至少一个目标类别模板中各模板的权重,以及与各模板对应的候选专名,确定各个候选专名的权重之前,还包括:
基于预设的正反例词典,识别所得到的所述目标类别下与所述至少一个目标类别模板对应的至少一个候选专名中的正例专名和反例专名;
根据识别结果,对所生成的各模板的权重进行修正;其中,任一模板修正后的权重为:与该模板对应的修正比例与修正前权重之积;与该模板对应的修正比例为:在与该模板对应的所有候选专名中,正例专名个数占正例专名个数与反例专名个数之和的比重;
剔除所得到的所述目标类别下与所述至少一个目标类别模板对应的至少一个候选专名中的反例专名。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于百度在线网络技术(北京)有限公司,未经百度在线网络技术(北京)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410601567.4/1.html,转载请声明来源钻瓜专利网。
- 上一篇:情景感知语音引导
- 下一篇:LNG蒸发气体再冷凝配置和方法