[发明专利]关键词的关联关键词的获取方法和装置有效
申请号: | 201410779363.X | 申请日: | 2014-12-15 |
公开(公告)号: | CN104408191B | 公开(公告)日: | 2017-11-21 |
发明(设计)人: | 刘粉香 | 申请(专利权)人: | 北京国双科技有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京康信知识产权代理有限责任公司11240 | 代理人: | 吴贵明,张永明 |
地址: | 100086 北京市海淀区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 关键词 关联 获取 方法 装置 | ||
1.一种关键词的关联关键词的获取方法,其特征在于,包括:
接收用于获取关联关键词的获取请求,其中,所述获取请求中携带有目标关键词和包含所述目标关键词的文本信息;
对所述文本信息进行分词处理,得到包括多个关键词的词库,其中,所述关键词包括所述目标关键词;
通过机器学习方法获取所述词库中各个所述关键词对应所述文本信息的多维数组;
基于各个所述关键词对应的所述多维数组对所述多个关键词进行聚类分析,得到多个词语集合;
确定包含所述目标关键词的所述词语集合;
计算所述目标关键词与第二关键词之间的距离,其中,所述第二关键词为包含所述目标关键词的所述词语集合中除所述目标关键词之外的关键词;
将符合预设条件的所述距离对应的所述第二关键词作为所述关联关键词;
对所述文本信息进行分词处理,得到包括多个关键词的词库包括:从词语数据库中获取预设词汇组合,并将文本信息中的关键词与词语数据库中的预设词汇组合进行匹配,若文本信息中的关键词与预设词汇组合相同,则将该关键词从文本信息中划分出来,得到多个关键词,保存得到的多个关键词得到词库。
2.根据权利要求1所述的获取方法,其特征在于,基于各个所述关键词对应的所述多维数组对所述多个关键词进行聚类分析,得到多个词语集合包括:
使用各个所述多维数组对多个所述关键词进行聚类,得到多个所述词语集合,其中,所述多维数组中的一维数据用于描述所述关键词的一个属性信息。
3.根据权利要求2所述的获取方法,其特征在于,
计算所述目标关键词与第二关键词之间的距离包括:计算所述目标关键词的第一多维数组与所述第二关键词的第二多维数组之间的欧式距离;
将符合预设条件的所述距离对应的所述第二关键词作为所述关联关键词包括:
对计算得到的所述欧式距离进行倒序排序,得到距离排序表;
将所述距离排序表中排序前N位的所述欧式距离的所述第二关键词作为所述关联关键词,其中,N为自然数。
4.根据权利要求2所述的获取方法,其特征在于,
计算所述目标关键词与第二关键词之间的距离包括:计算所述目标关键词的第一多维数组与所述第二关键词的第二多维数组之间的欧式距离;
将符合预设条件的所述距离对应的所述第二关键词作为所述关联关键词包括:
将不大于预设阈值的所述欧式距离的所述第二关键词作为所述关联关键词。
5.根据权利要求1至4中任意一项所述的获取方法,其特征在于,对所述文本信息进行分词处理,得到包括多个关键词的词库包括:
按照预设词汇组合将所述文本信息拆分为所述多个关键词;
保存所述多个关键词得到所述词库。
6.一种关键词的关联关键词的获取装置,其特征在于,包括:
第一获取模块,用于接收用于获取关联关键词的获取请求,其中,所述获取请求中携带有目标关键词和包含所述目标关键词的文本信息;
分词模块,用于对所述文本信息进行分词处理,得到包括多个关键词的词库,其中,所述关键词包括所述目标关键词;
第二获取模块,用于通过机器学习方法获取所述词库中各个所述关键词对应所述文本信息的多维数组;
聚类模块,用于基于各个所述关键词对应的所述多维数组对所述多个关键词进行聚类分析,得到多个词语集合;
第一确定模块,用于确定包含所述目标关键词的所述词语集合;
计算模块,用于计算所述目标关键词与第二关键词之间的距离,其中,所述第二关键词为包含所述目标关键词的所述词语集合中除所述目标关键词之外的关键词;
第二确定模块,用于确定将符合预设条件的所述距离对应的所述第二关键词作为所述关联关键词;
对所述文本信息进行分词处理,得到包括多个关键词的词库包括:从词语数据库中获取预设词汇组合,并将文本信息中的关键词与词语数据库中的预设词汇组合进行匹配,若文本信息中的关键词与预设词汇组合相同,则将该关键词从文本信息中划分出来,得到多个关键词,保存得到的多个关键词得到词库。
7.根据权利要求6所述的获取装置,其特征在于,所述聚类模块包括:
聚类子模块,用于使用各个所述多维数组对多个所述关键词进行聚类,得到多个所述词语集合,其中,所述多维数组中的一维数据用于描述所述关键词的一个属性信息。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京国双科技有限公司,未经北京国双科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410779363.X/1.html,转载请声明来源钻瓜专利网。