[发明专利]类别专名挖掘方法及装置在审
申请号: | 201410601567.4 | 申请日: | 2014-10-31 |
公开(公告)号: | CN104331456A | 公开(公告)日: | 2015-02-04 |
发明(设计)人: | 费晓旭;李兴建;唐国华 | 申请(专利权)人: | 百度在线网络技术(北京)有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京品源专利代理有限公司 11332 | 代理人: | 路凯;胡彬 |
地址: | 100085 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 类别 专名 挖掘 方法 装置 | ||
技术领域
本发明实施例涉及数据挖掘技术领域,尤其涉及一种类别专名挖掘方法及装置。
背景技术
命名实体(Named Engity)是人名、地名、机构名等以名称为标识的实体,也叫做专名。一个专名可以同时属于多个类别,例如“苹果”这一专名,其可以属于水果这一类别,也可属于电子产品这一类别;一个类别也可以包括多个专名,例如,“北京”、“上海”和“深圳”等都属于地名这一类别。专名是信息提取、问答系统、句法分析等多种自然语言处理技术所依赖的基础资源。如果能将一些类别下所包含的各个专名挖掘出来,将非常有助于搜索产品来理解用户所输入的查询句/词,从而大大提高搜索结果的正确率与召回率。
目前,主要是通过对垂直网站内容进行挖掘来得到类别专名。比如,从黄页网站挖掘机构名,从地理信息网站挖掘地名等。所谓垂直网站,指的是用于提供特定领域或满足特定需求的全部深度信息和相关服务的网站。
但是,基于垂直网站内容挖掘得到的专名一般书写比较规范整齐,而在搜索产品中用户输入的查询句/词随意性却很大,所以基于挖掘到的专名,也不能够很好的理解用户在搜索产品中输入的查询句/词。比如电影名“少年派的奇幻漂流”,用户在搜索时一般只输入“电影少年派”。这样,从垂直网站挖掘到的专名词典只有规范的专名“少年派的奇幻漂流”,而没有缩写的专名“少年派”,这样就会导致搜索产品在理解用户查询词/句时无法识别“少年派”这种专名。
发明内容
本发明实施例提供一种类别专名挖掘方法及装置,以提高挖掘准确率,便于后续能够很好的理解用户在搜索产品中输入的查询句/词。
第一方面,本发明实施例提供了一种类别专名挖掘方法,该方法包括:
将预设的目标类别下的至少一个种子词,与查询句/词集合中的查询句/词进行匹配,得到与所述至少一个种子词对应的至少一个目标类别模板,其中所述查询句/词集合为用户在搜索引擎中输入的历史查询句/词组成的集合;
将至少一个目标类别模板,与所述查询句/词集合中的查询句/词进行匹配,得到所述目标类别下与所述至少一个目标类别模板对应的至少一个候选专名。
第二方面,本发明实施例还提供了一种类别专名挖掘装置,该装置包括:
目标类别模板生成单元,用于将预设的目标类别下的至少一个种子词,与查询句/词集合中的查询句/词进行匹配,得到与所述至少一个种子词对应的至少一个目标类别模板,其中所述查询句/词集合为用户在搜索引擎中输入的历史查询句/词组成的集合;
候选专名生成单元,用于将至少一个目标类别模板,与所述查询句/词集合中的查询句/词进行匹配,得到所述目标类别下与所述至少一个目标类别模板对应的至少一个候选专名。
本发明实施例提供的技术方案,区别于从垂直网站内容来挖掘专名,而是基于用户在搜索引擎中输入的历史查询句/词所组成的这样一个集合,首先利用预先生成目标类别下的至少一个种子词,得到该集合中所包含的目标类别下的各个模板,然后再利用得到的各个模板来挖掘该集合中所包含的专名,从而能挖掘出其他方法很难挖到的专名,对专名词典做了有力的补充,提高了专名挖掘的准确率,并且非常有利于后续对用户在搜索产品中输入的查询句/词的理解。
附图说明
图1是本发明实施例一提供的一种类别专名挖掘方法的流程示意图;
图2是本发明实施例二提供的一种类别专名挖掘方法的流程示意图;
图3是本发明实施例三提供的一种类别专名挖掘方法的流程示意图;
图4是本发明实施例四提供的一种类别专名挖掘方法的流程示意图;
图5是本发明实施例五提供的一种类别专名挖掘装置的结构示意图。
具体实施方式
下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部结构。
实施例一
图1是本发明实施例一提供的一种类别专名挖掘方法的流程示意图。本实施例可适用于对目标类别下的专名进行挖掘的情况,以帮助搜索产品来理解用户所输入的查询句/词,从而大大提高搜索结果的正确率与召回率。其中,目标类别可以是地名、歌曲、歌手或者电影等。所述方法可以由类别专名挖掘装置来执行,该装置可由软件和/或硬件实现。参见图1,本实施例提供的类别专名挖掘方法具体包括如下操作:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于百度在线网络技术(北京)有限公司,未经百度在线网络技术(北京)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410601567.4/2.html,转载请声明来源钻瓜专利网。
- 上一篇:情景感知语音引导
- 下一篇:LNG蒸发气体再冷凝配置和方法