[发明专利]一种搜索关键词获取的方法及装置在审
申请号: | 201710047106.0 | 申请日: | 2017-01-22 |
公开(公告)号: | CN106844647A | 公开(公告)日: | 2017-06-13 |
发明(设计)人: | 骆宗伟;韩帅;刘金群;李斌;粟隆泽;周兴友;张宇;张诗奇;石一凡 | 申请(专利权)人: | 南方科技大学;深圳市傲天科技股份有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F17/27 |
代理公司: | 北京品源专利代理有限公司11332 | 代理人: | 孟金喆,胡彬 |
地址: | 518000 广东省*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 搜索关键词 获取 方法 装置 | ||
技术领域
本发明实施例涉及信息处理技术领域,尤其涉及一种搜索关键词获取的方法及装置。
背景技术
随着互联网的快速发展,人们逐渐通过依靠互联网搜索的结果作为获取信息的入口。通过对用户搜索关键词的分析,可以获得用户的兴趣所在以及关注的热点,更可以挖掘出用户自身的偏好以及业务的潜在关联项目。
目前的搜索关键词获取的方法,大多是直接在搜索框中输入的文本中提取预设个数的关键词作为搜索关键词,如将输入的文本进行分词,将分词后获得的候选关键词排序,提取预设个数的候选关键词作为用户的搜索关键词。具体的,若用户在搜索框中键入“汽车模具”或“汽车维修”,则会将“汽车”和“模具”或“汽车”和“维修”作为搜索关键词。
然而,上述方法中,在分析用户的兴趣时,会将获得的所有关键词均作为用户的兴趣所在,如若输入的文本为“汽车模具”,会将“汽车”以及“模具”均作为用户的兴趣,然而用户的兴趣重点在于“模具”,而不是“汽车”,使得通过用户搜索关键词不能准确地确定用户的兴趣及关注的热点。
发明内容
本发明提供一种搜索关键词获取的方法及装置,以实现根据用户输入的文本信息比较准确地输出与用户的某一兴趣或需求相关的关键词。
第一方面,本发明实施例提供了搜索关键词获取的方法,该方法包括:
统计目标领域的特定相关关键词和特定无关关键词;
将获取的待分析文本进行分词得到候选关键词;
将每个所述候选关键词与所述特定无关关键词进行匹配;
若每个所述候选关键词均匹配失败,则计算每个所述候选关键词的词向量与所述目标领域的每个特定相关关键词的词向量的相似度;
若所述相似度大于预设阈值,则将该目标领域的特定相关关键词作为待分析文本的关键词输出。
第二方面,本发明实施例还提供了一种搜索关键词获取的装置,该装置包括:
关键词统计模块,用于统计目标领域的特定相关关键词和特定无关关键词;
文本分词模块,用于将获取的待分析文本进行分词得到候选关键词;
关键词匹配模块,用于将每个所述候选关键词与所述特定无关关键词进行匹配;
相似度计算模块,用于若每个所述候选关键词均匹配失败,则计算每个所述候选关键词的词向量与所述目标领域的每个特定相关关键词的词向量的相似度;
关键词输出模块,用于若所述相似度大于预设阈值,则将该目标领域的特定相关关键词作为待分析文本的关键词输出。
本发明通过统计目标领域的特定相关关键词和特定无关关键词;将获取的待分析文本进行分词得到候选关键词;将每个候选关键词与特定无关关键词进行匹配;若每个候选关键词均匹配失败,则计算每个候选关键词的词向量与所述目标领域的每个特定相关关键词的词向量的相似度;若相似度大于预设阈值,则将该目标领域的特定相关关键词作为待分析文本的关键词输出,实现根据用户输入的文本信息比较准确地确定与用户的某一兴趣或需求相关的关键词,并将与候选关键词语义相似度较高的该目标领域的特定相关关键词作为待分析文本的关键词输出,丰富用户的搜索关键词。
附图说明
图1是本发明实施例一中的一种搜索关键词获取的方法的流程图;
图2是本发明实施例二中的一种搜索关键词获取的方法的流程图;
图3是本发明实施例三中的一种搜索关键词获取的装置的结构框图。
具体实施方式
下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部结构。
实施例一
图1为本发明实施例一提供的一种搜索关键词获取的方法的流程图,本实施例可适用于获取搜索关键词的情况,该方法可以由搜索关键词获取的装置来执行,具体包括如下步骤:
步骤110、统计目标领域的特定相关关键词和特定无关关键词。
其中,目标领域可为研究用户的某一兴趣或需求而确定的领域,如目标领域可为研究用户是否有购车的意愿而确定的汽车领域或为研究用户是否有旅游的意愿而确定的旅游领域等。
特定相关关键词为与用户的某一兴趣或需求相关的关键词。特定无关关键词为与用户的该兴趣或需求无关的关键词,其中,特定无关关键词通常会与某些特定相关关键词同时出现或语义相似度较高,而其往往与用户该兴趣或需求无关。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南方科技大学;深圳市傲天科技股份有限公司,未经南方科技大学;深圳市傲天科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710047106.0/2.html,转载请声明来源钻瓜专利网。