[发明专利]一种关键词关联扩展方法和装置在审
申请号: | 201711039845.1 | 申请日: | 2017-10-30 |
公开(公告)号: | CN107862015A | 公开(公告)日: | 2018-03-30 |
发明(设计)人: | 倪嘉呈 | 申请(专利权)人: | 北京奇艺世纪科技有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F17/27;G06K9/62 |
代理公司: | 北京润泽恒知识产权代理有限公司11319 | 代理人: | 莎日娜 |
地址: | 100080 北京市海淀*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 关键词 关联 扩展 方法 装置 | ||
1.一种关键词关联扩展方法,其特征在于,具体包括:
获取语料数据,对所述语料数据进行切词处理,得到词条合集;
利用word2vec工具对所述词条合集进行训练,得到所述词条合集的词向量合集;
对预置的关键词合集中每个关键词进行切词处理,并根据切词结果和所述词向量合集得到每个关键词的关键词向量,所有关键词向量构成所述关键词合集的关键词向量合集;
根据每个关键词向量分别计算选定的关键词的与其他关键词之间的欧氏距离;
根据所述欧氏距离从所述关键词合集中选取相关关键词。
2.如权利要求1所述的关键词关联扩展方法,其特征在于,所述获取语料数据,对所述语料数据进行切词处理,得到词条合集,包括:
获取主题相关的语料数据,所述语料数据由搜索点击日志中的搜索关键词和搜索之后用户所点击的网页标题拼接而成;
利用预设的切词工具对所述语料数据进行切词处理,得到所述词条合集。
3.如权利要求1所述的关键词关联扩展方法,其特征在于,所述对预置的关键词合集中每个关键词进行切词处理,并根据切词结果和所述词向量合集得到每个关键词的关键词向量,包括:
对每个关键词进行切词处理,得到多个关键词词条;
根据所述多个关键词词条从所述词向量合集中进行查找,得到每个关键词词条的词条向量;
计算每个关键词词条的词条权重;
根据预设的计算公式对所述词条向量和所述词条权重进行计算,得到每条关键词的关键词向量,所有关键词向量构成所述关键词向量合集。
4.如权利要求3所述的关键词关联扩展方法,其特征在于,所述关键词向量为归一化值。
5.如权利要求1所述的关键词关联扩展方法,其特征在于,所述根据所述欧氏距离从所述关键词合集中选取相关关键词,包括:
在得到多个欧氏距离后,选取前K个数值最小的欧氏距离,所述K为非负整数;
将选取的欧氏距离对应的关键词确定为所述相关关键词。
6.一种关键词关联扩展装置,其特征在于,包括:
语料处理模块,用于获取语料数据,对所述语料数据进行切词处理,得到词条合集;
词条训练模块,用于利用word2vec工具对所述词条合集进行训练,得到所述词条合集的词向量合集;
关键词处理模块,用于对预置的关键词合集中每个关键词进行切词处理,并根据切词结果和所述词向量合集得到每个关键词的关键词向量,所有关键词向量构成所述关键词合集的关键词向量合集;
距离计算模块,用于根据每个关键词向量分别计算选定的关键词的与其他关键词之间的欧氏距离;
关键词选取模块,用于根据所述欧氏距离从所述关键词合集中选取相关关键词。
7.如权利要求6所述的关键词关联扩展装置,其特征在于,所述语料处理模块包括:
语料获取单元,用于获取主题相关的语料数据,所述语料数据由搜索点击日志中的搜索关键词和搜索之后用户所点击的网页标题拼接而成;
语料切词单元,用于利用预设的切词工具对所述语料数据进行切词处理,得到所述词条合集。
8.如权利要求6所述的关键词关联扩展装置,其特征在于,所述关键词处理模块包括:
关键词切词单元,用于对每个关键词进行切词处理,得到多个关键词词条;
向量查找单元,用于根据所述多个关键词词条从所述词向量合集中进行查找,得到每个关键词词条的词条向量;
权重计算单元,用于计算每个关键词词条的词条权重;
向量计算单元,用于根据预设的计算公式对所述词条向量和所述词条权重进行计算,得到每条关键词的关键词向量,所有关键词向量构成所述关键词向量合集。
9.如权利要求8所述的关键词关联扩展装置,其特征在于,所述关键词向量为归一化值。
10.如权利要求6所述的关键词关联扩展装置,其特征在于,所述关键词选取模块包括:
欧氏距离选取单元,用于在得到多个欧氏距离后,选取前K个数值最小的欧氏距离,所述K为非负整数;
相关词选取单元,用于将选取的欧氏距离对应的关键词确定为所述相关关键词。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京奇艺世纪科技有限公司,未经北京奇艺世纪科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711039845.1/1.html,转载请声明来源钻瓜专利网。
- 上一篇:隐私保护加权网络发布数据集的构建方法
- 下一篇:一种专题页面的配置方法