[发明专利]一种同义词挖掘方法及装置有效
申请号: | 201811345950.2 | 申请日: | 2018-11-13 |
公开(公告)号: | CN109508414B | 公开(公告)日: | 2021-02-09 |
发明(设计)人: | 吴健君;倪嘉呈 | 申请(专利权)人: | 北京奇艺世纪科技有限公司 |
主分类号: | G06F16/951 | 分类号: | G06F16/951;G06F40/247;G06Q30/02 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 王宝筠 |
地址: | 100080 北京市海淀*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 同义词 挖掘 方法 装置 | ||
本申请的同义词挖掘方法及装置,在对待匹配同义词的目标搜索词进行向量化处理时,所采用的词向量模型的训练样本包括多个用户中每个用户在至少一个预定时长的时间窗口内的历史搜索行为所对应的多个搜索词,而属于同一时间窗口的各个搜索词由于关联性较强,从而使得在训练词向量模型时在训练样本中提供了长尾词的上下文信息,在此基础上,当利用该词向量模型以及基于该词向量模型所得的词语向量库对目标搜索词的同义词进行挖掘时,对于长尾形式的目标搜索词,可基于所述词向量模型及所述词语向量库中体现的上下文信息使得长尾词具有较好的同义词挖掘效果,且本申请由于在进行同义词挖掘时不需人工介入,从而可有效提升同义词挖掘效率。
技术领域
本发明属于计算机技术领域,尤其涉及一种同义词挖掘方法及装置。
背景技术
同义词挖掘技术是基于用户搜索行为定向的广告召回中的重要技术,利用该技术对广告主设置的用户搜索词进行同义词扩展,可以提高广告的召回效率。
目前,常用的同义词挖掘方法通常可以分为两种,一种是基于规则的同义词挖掘方法,该方法需要大量的人工介入,通过人们的先验知识来提供同义词列表,虽然可以借助一些同义词词典,但是词典的信息有滞后性,对于网络语言的传播,依然需要人工介入处理,从而会导致挖掘效率较为低下;另一种是基于搜索引擎上下文的挖掘方法,该方法通常需要搜索点击日志及session日志(即搜索日志),通过不同搜索词的共现(点击同一统一资源定位符url,出现在同一session,即当基于不同的搜索词进行搜索并根据搜索结果点击了同一url时,认为上述不同的搜索词产生了共现)来计算同义词,该方法的缺点在于对于长尾同义词的挖掘效果不理想,而在基于用户搜索行为定向的广告召回中,有商业价值的往往是长尾词的搜索。
由此可见,现有的同义词挖掘方法均存在相应缺陷,从而,本领域需提供一种较优的同义词挖掘方案,以更好地满足基于用户搜索行为定向的广告召回中的同义词挖掘需求。
发明内容
有鉴于此,本发明的目的在于提供一种同义词挖掘方法及装置,以克服现有技术存在的问题,更好地满足基于用户搜索行为定向的广告召回中的同义词挖掘需求。
为此,本发明公开如下技术方案:
一种同义词挖掘方法,包括:
获得待处理的目标搜索词;
利用预先训练的词向量模型对所述目标搜索词进行向量化处理,得到所述目标搜索词对应的目标词向量;所述词向量模型为预先利用多个用户的历史搜索行为所对应的搜索词训练的模型,每个用户的历史搜索行为所对应的搜索词包括:每个用户在至少一个预定时长的时间窗口内的历史搜索行为所对应的多个搜索词;
基于所述目标词向量以及预定的词语向量库中包括的各个词语的词向量,计算所述词语向量库中的每个词语与所述目标搜索词的相似度;所述词语向量库包括多条词语与词向量的对应关系信息,所述词语向量库中的词语为所述多个用户的历史搜索行为所对应的搜索词,所述词语向量库中的词向量为利用所述词向量模型对所述多个用户的历史搜索行为所对应的各个搜索词进行向量化处理后所得的向量化表达;
基于预定规则从所述词语向量库中选取预定数量的词语作为所述目标搜索词的同义词。
上述方法,优选的,在所述获得待处理的目标搜索词之前,还包括以下的预处理过程:
获得多个用户的历史搜索行为所对应的搜索行为信息,所述搜索行为信息包括搜索词与搜索时间的对应关系;
利用预定时长的时间窗口对每个用户的搜索行为信息进行划分,得到每个用户在所述预定时长的至少一个时间窗口内所对应的各个搜索词;
利用各个用户在所对应的各时间窗口内的各个搜索词,训练一词向量模型;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京奇艺世纪科技有限公司,未经北京奇艺世纪科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811345950.2/2.html,转载请声明来源钻瓜专利网。