[发明专利]一种抽取核心词的方法及装置有效
申请号: | 201310376577.8 | 申请日: | 2013-08-26 |
公开(公告)号: | CN104424177B | 公开(公告)日: | 2017-09-15 |
发明(设计)人: | 彭松 | 申请(专利权)人: | 高德软件有限公司 |
主分类号: | G06F17/27 | 分类号: | G06F17/27;G06F17/30 |
代理公司: | 北京集佳知识产权代理有限公司11227 | 代理人: | 王宝筠 |
地址: | 102200 北京市昌*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 抽取 核心 方法 装置 | ||
技术领域
本发明涉及词语处理领域,特别涉及一种抽取核心词的方法及装置。
背景技术
在电子地图查询应用中,根据用户输入的查询词进行POI查询时,通常的做法是,首先对用户输入的查询词进行分词,再将各分词分别与POI数据库进行匹配,得到多个查询结果,将查询结果中出现频次最高的查询结果作为本次查询的查询结果。但是,该种查询方式会存在以下技术缺陷:由于对查询词进行切分会得到多个分词,但是有些分词并不是该查询词的核心词(核心词即为指能准确表达查询词含义的最小完整词语单位),如果根据这些非核心词查询得到的查询结果出现的频次最高,则将频次最高的查询结果作为查询结果可能并不是用户实际需要的结果,从而导致查询结果不准确或者错误。例如,用户输入的查询词“北京同仁堂中医医院”,切分得到的分词为“北京”、“同仁堂”、“中医医院”,根据这三个分词进行查询之后,发现“北京同仁堂药店”出现的频次最高,此时将“北京同仁堂药店”作为查询结果输出,但是用户实际要查的是一家中医医院而并不是药店。
发明内容
有鉴于此,本发明实施例的主要目的在于提供一种用于抽取核心词的方法及装置,能够实现从用户输入的查询词中抽取出较为准确的核心词,从而达到提高查询准确率的目的。
在本发明实施例的第一方面中,提供了一种抽取核心词的方法,该方法可以包括:
采用预置的分词方式对查询词进行切分,得到组成所述查询词的分词;
将所述查询词的分词分别与预置的核心词词库和非核心词词库中的词语进行匹配;
若所述查询词的分词中存在与所述核心词词库匹配的分词和/或与所述非核心词词库匹配的分词,且存在未知分词,则:
将与所述核心词词库匹配的分词确定为所述查询词的核心词;以及,
将满足预置的核心词长度标准的未知分词或拼接未知分词得到的分词作为所述查询词的核心词,所述未知分词是指与所述核心词词库和所述非核心词词库中的词语均不匹配的分词。
在本发明实施例的第二方面中,提供了一种抽取核心词的装置,该装置可以包括:
分词单元,用于采用预置的分词方式对查询词进行切分,得到组成所述查询词的分词;
分词匹配单元,用于将所述查询词的分词分别与预置的核心词词库和非核心词词库中的词语进行匹配;
第一核心词抽取单元,用于若所述查询词的分词中存在与所述核心词词库匹配的分词和/或与所述非核心词词库匹配的分词,且存在未知分词,则:将与所述核心词词库匹配的分词确定为所述查询词的核心词;以及,将满足预置的核心词长度标准的未知分词或拼接未知分词得到的分词作为所述查询词的核心词,所述未知分词是指与所述核心词词库和所述非核心词词库中的词语均不匹配的分词。
可见本发明具有如下有益效果:
现有技术根据查询词的分词进行查询,并将频次最高的查询结果作为最终的查询结果,与现有技术相比,本发明提出了抽取查询词的核心词的方法,并以该抽取到的核心词进行查询,由于核心词是能够准确表达查询词含义的最小完整词语单位,即能够准确的表达用户的查询意图,因此根据查询词对应的核心词进行查询所得到的查询结果较为准确,从而达到提高查询准确率的目的。在抽取核心词时,首先采用预置的分词方式对查询词进行分词得到组成查询词的分词,又将查询词的分词分别与预置的核心词词库和非核心词词库中的词语进行匹配,由于核心词词库中存储的是已知准确的核心词,因此,若查询词的分词中存在与核心词词库匹配的分词,则可以将与核心词词库匹配的分词作为查询词的核心词,由于非核心词词库中存储的是已经经过验证为不是核心词的词语,因此,与核心词词库和非核心词词库中的词语均不匹配的未知分词则是与核心词词库匹配的词语外,最有可能为核心词的词语,因此,再将满足预置的核心词长度标准的未知分词或拼接未知分词得到的分词作为所述查询词的核心词,可以提高抽取到准确核心词的概率,从而以该抽取到的准确的核心词进行查询,得到的查询结果更准确,从而提高查询的准确率。
附图说明
图1是本发明实施例提供的抽取核心词的方法的流程图之一;
图2是本发明实施例提供的抽取核心词的方法的流程图之二;
图3是本发明实施例提供的抽取核心词的装置的结构示意图之一。
图4是本发明实施例提供的抽取核心词的装置的结构示意图之二;
图5是本发明实施例提供的抽取核心词的装置的结构示意图之三;
图6是本发明实施例提供的抽取核心词的装置的结构示意图之四;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于高德软件有限公司,未经高德软件有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310376577.8/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种IP地址库检索方法及系统
- 下一篇:排版界面布局方法及装置