[发明专利]一种同义词挖掘方法及装置有效
申请号: | 201811345950.2 | 申请日: | 2018-11-13 |
公开(公告)号: | CN109508414B | 公开(公告)日: | 2021-02-09 |
发明(设计)人: | 吴健君;倪嘉呈 | 申请(专利权)人: | 北京奇艺世纪科技有限公司 |
主分类号: | G06F16/951 | 分类号: | G06F16/951;G06F40/247;G06Q30/02 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 王宝筠 |
地址: | 100080 北京市海淀*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本申请的同义词挖掘方法及装置,在对待匹配同义词的目标搜索词进行向量化处理时,所采用的词向量模型的训练样本包括多个用户中每个用户在至少一个预定时长的时间窗口内的历史搜索行为所对应的多个搜索词,而属于同一时间窗口的各个搜索词由于关联性较强,从而使得在训练词向量模型时在训练样本中提供了长尾词的上下文信息,在此基础上,当利用该词向量模型以及基于该词向量模型所得的词语向量库对目标搜索词的同义词进行挖掘时,对于长尾形式的目标搜索词,可基于所述词向量模型及所述词语向量库中体现的上下文信息使得长尾词具有较好的同义词挖掘效果,且本申请由于在进行同义词挖掘时不需人工介入,从而可有效提升同义词挖掘效率。 | ||
搜索关键词: | 一种 同义词 挖掘 方法 装置 | ||
【主权项】:
1.一种同义词挖掘方法,其特征在于,包括:获得待处理的目标搜索词;利用预先训练的词向量模型对所述目标搜索词进行向量化处理,得到所述目标搜索词对应的目标词向量;所述词向量模型为预先利用多个用户的历史搜索行为所对应的搜索词训练的模型,每个用户的历史搜索行为所对应的搜索词包括:每个用户在至少一个预定时长的时间窗口内的历史搜索行为所对应的多个搜索词;基于所述目标词向量以及预定的词语向量库中包括的各个词语的词向量,计算所述词语向量库中的每个词语与所述目标搜索词的相似度;所述词语向量库包括多条词语与词向量的对应关系信息,所述词语向量库中的词语为所述多个用户的历史搜索行为所对应的搜索词,所述词语向量库中的词向量为利用所述词向量模型对所述多个用户的历史搜索行为所对应的各个搜索词进行向量化处理后所得的向量化表达;基于预定规则从所述词语向量库中选取预定数量的词语作为所述目标搜索词的同义词。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京奇艺世纪科技有限公司,未经北京奇艺世纪科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201811345950.2/,转载请声明来源钻瓜专利网。