[发明专利]一种搜索关键词获取的方法及装置在审
申请号: | 201710047106.0 | 申请日: | 2017-01-22 |
公开(公告)号: | CN106844647A | 公开(公告)日: | 2017-06-13 |
发明(设计)人: | 骆宗伟;韩帅;刘金群;李斌;粟隆泽;周兴友;张宇;张诗奇;石一凡 | 申请(专利权)人: | 南方科技大学;深圳市傲天科技股份有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F17/27 |
代理公司: | 北京品源专利代理有限公司11332 | 代理人: | 孟金喆,胡彬 |
地址: | 518000 广东省*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 搜索关键词 获取 方法 装置 | ||
1.一种搜索关键词获取的方法,其特征在于,包括:
统计目标领域的特定相关关键词和特定无关关键词;
将获取的待分析文本进行分词得到候选关键词;
将每个所述候选关键词与所述特定无关关键词进行匹配;
若每个所述候选关键词均匹配失败,则计算每个所述候选关键词的词向量与所述目标领域的每个特定相关关键词的词向量的相似度;
若所述相似度大于预设阈值,则将该目标领域的特定相关关键词作为待分析文本的关键词输出。
2.根据权利要求1所述的方法,其特征在于,还包括:
通过word2vec语言建模工具训练得到目标领域的词向量模型;
所述计算每个所述候选关键词的词向量与所述目标领域的每个特定相关关键词的词向量的相似度,具体为:
基于所述词向量模型计算每个所述候选关键词的词向量与所述目标领域的每个特定相关关键词的词向量的相似度。
3.根据权利要求1所述的方法,其特征在于,所述将获取的待分析文本进行分词得到候选关键词之前,还包括:
根据搜索引擎对应的搜索URL组成规则得到待分析文本。
4.根据权利要求3所述的方法,其特征在于,所述根据搜索引擎对应的搜索URL组成规则得到待分析文本,包括:
利用搜索引擎对应的正则表达式得到目标搜索URL中包含待分析文本的字符串;
将所述字符串进行转码得到待分析文本。
5.根据权利要求4所述的方法,其特征在于,所述将所述字符串进行转码得到待分析文本之后,还包括:
将所述待分析文本中除中文之外的文本和/或中文符号滤除。
6.一种搜索关键词获取的装置,其特征在于,包括:
关键词统计模块,用于统计目标领域的特定相关关键词和特定无关关键词;
文本分词模块,用于将获取的待分析文本进行分词得到候选关键词;
关键词匹配模块,用于将每个所述候选关键词与所述特定无关关键词进行匹配;
相似度计算模块,用于若每个所述候选关键词均匹配失败,则计算每个所述候选关键词的词向量与所述目标领域的每个特定相关关键词的词向量的相似度;
关键词输出模块,用于若所述相似度大于预设阈值,则将该目标领域的特定相关关键词作为待分析文本的关键词输出。
7.根据权利要求6所述的装置,其特征在于,还包括:
模型训练模块,用于通过word2vec语言建模工具训练得到目标领域的词向量模型;
所述相似度计算模块,具体用于:
基于所述词向量模型计算每个所述候选关键词的词向量与所述目标领域的每个特定相关关键词的词向量的相似度。
8.根据权利要求7所述的装置,其特征在于,还包括:
文本获取模块,用于根据搜索引擎对应的搜索URL组成规则得到待分析文本。
9.根据权利要求8所述的装置,其特征在于,所述文本获取模块,包括:
字符串获取单元,用于利用搜索引擎对应的正则表达式得到目标搜索URL中包含待分析文本的字符串;
文本获取单元,用于将所述字符串进行转码得到待分析文本。
10.根据权利要求9所述的装置,其特征在于,所述文本获取模块,还包括:
滤除单元,用于将所述待分析文本中除中文之外的文本和/或中文符号滤除。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南方科技大学;深圳市傲天科技股份有限公司,未经南方科技大学;深圳市傲天科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710047106.0/1.html,转载请声明来源钻瓜专利网。