[发明专利]一种关键词关联扩展方法和装置在审
申请号: | 201711039845.1 | 申请日: | 2017-10-30 |
公开(公告)号: | CN107862015A | 公开(公告)日: | 2018-03-30 |
发明(设计)人: | 倪嘉呈 | 申请(专利权)人: | 北京奇艺世纪科技有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F17/27;G06K9/62 |
代理公司: | 北京润泽恒知识产权代理有限公司11319 | 代理人: | 莎日娜 |
地址: | 100080 北京市海淀*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明提供了一种关键词关联扩展方法和装置。具体为获取语料数据,对语料数据进行切词处理,得到词条合集;利用word2vec工具对词条合集进行训练,得到词条合集的词向量合集;对预置的关键词合集中每个关键词进行切词处理,并根据切词结果和词向量合集得到每个关键词的关键词向量,所有关键词向量构成关键词合集的关键词向量合集;根据每个关键词的关键词向量计算选定的关键词的与其他关键词之间的欧氏距离;根据欧氏距离从关键词合集中选取相关关键词。由于通过切词处理得到的词向量表达了每个词条和关键词词条的语义特征,因此相对于仅考虑仅依赖于文本相关性和点击日志的其他扩展技术方案来说,增强了语义关联特征,从而使得到的扩展结果更为丰富全面。 | ||
搜索关键词: | 一种 关键词 关联 扩展 方法 装置 | ||
【主权项】:
一种关键词关联扩展方法,其特征在于,具体包括:获取语料数据,对所述语料数据进行切词处理,得到词条合集;利用word2vec工具对所述词条合集进行训练,得到所述词条合集的词向量合集;对预置的关键词合集中每个关键词进行切词处理,并根据切词结果和所述词向量合集得到每个关键词的关键词向量,所有关键词向量构成所述关键词合集的关键词向量合集;根据每个关键词向量分别计算选定的关键词的与其他关键词之间的欧氏距离;根据所述欧氏距离从所述关键词合集中选取相关关键词。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京奇艺世纪科技有限公司,未经北京奇艺世纪科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201711039845.1/,转载请声明来源钻瓜专利网。
- 上一篇:隐私保护加权网络发布数据集的构建方法
- 下一篇:一种专题页面的配置方法