[发明专利]一种同义词挖掘方法及装置有效
申请号: | 201811345950.2 | 申请日: | 2018-11-13 |
公开(公告)号: | CN109508414B | 公开(公告)日: | 2021-02-09 |
发明(设计)人: | 吴健君;倪嘉呈 | 申请(专利权)人: | 北京奇艺世纪科技有限公司 |
主分类号: | G06F16/951 | 分类号: | G06F16/951;G06F40/247;G06Q30/02 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 王宝筠 |
地址: | 100080 北京市海淀*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 同义词 挖掘 方法 装置 | ||
1.一种同义词挖掘方法,其特征在于,包括:
获得待处理的目标搜索词;
利用预先训练的词向量模型对所述目标搜索词进行向量化处理,得到所述目标搜索词对应的目标词向量;所述词向量模型为预先利用多个用户的历史搜索行为所对应的包括长尾词及其上下文信息的搜索词训练的模型,每个用户的历史搜索行为所对应的包括长尾词及其上下文信息的搜索词包括:每个用户在至少一个预定时长的时间窗口内的历史搜索行为所对应的多个包括长尾词及其上下文信息的搜索词;其中,同一个时间窗口内的历史搜索行为所对应的多个搜索词是基于同一搜索目的产生的相关联的搜索词,同一个时间窗口表示预定时长的连续时间段;
基于所述目标词向量以及预定的词语向量库中包括的各个词语的词向量,计算所述词语向量库中的每个词语与所述目标搜索词的相似度;所述词语向量库包括多条词语与词向量的对应关系信息,所述词语向量库中的词语为所述多个用户的历史搜索行为所对应的包括长尾词及其上下文信息的搜索词,所述词语向量库中的词向量为利用所述词向量模型对所述多个用户的历史搜索行为所对应的包括长尾词及其上下文信息的各个搜索词进行向量化处理后所得的向量化表达;
基于预定规则从所述词语向量库中选取预定数量的词语作为所述目标搜索词的同义词。
2.根据权利要求1所述的方法,其特征在于,在所述获得待处理的目标搜索词之前,还包括以下的预处理过程:
获得多个用户的历史搜索行为所对应的搜索行为信息,所述搜索行为信息包括搜索词与搜索时间的对应关系;
利用预定时长的时间窗口对每个用户的搜索行为信息进行划分,得到每个用户在所述预定时长的至少一个时间窗口内所对应的各个搜索词;
利用各个用户在所对应的各时间窗口内的各个搜索词,训练一词向量模型;
利用所述词向量模型对每个用户在所对应的时间窗口内的每个搜索词进行向量化处理,得到每个搜索词对应的词向量,并基于各个用户的各个搜索词与相应词向量的对应关系,生成一词语向量库。
3.根据权利要求1所述的方法,其特征在于,所述获得待处理的目标搜索词,包括:
获得用户的当前搜索行为所对应的搜索词,作为待处理的目标搜索词。
4.根据权利要求1所述的方法,其特征在于,所述基于所述目标词向量以及预定的词语向量库中包括的各个词语对应的词向量,计算所述词语向量库中的每个词语与所述目标搜索词的相似度,包括:
利用预定的词向量距离计算公式,基于所述目标词向量以及所述词语向量库中包括的每个词语对应的词向量,计算所述目标搜索词与所述词语向量库中包括的每个词语的词向量距离,所述每个词语的词向量距离表征所述目标搜索词与所述词语向量库中包括的每个词语间的相似度。
5.根据权利要求4所述的方法,其特征在于,所述目标搜索词与所述词语向量库中包括的每个词语的词向量距离,为所述目标搜索词与所述词语向量库中包括的每个词语的余弦距离或欧式距离。
6.根据权利要求1所述的方法,其特征在于,所述基于预定规则从所述词语向量库中选取预定数量的词语作为所述目标搜索词的同义词,包括:
按相似度降序顺序从所述词语向量库中选取出排序前预定数量的词语作为所述目标搜索词的同义词。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京奇艺世纪科技有限公司,未经北京奇艺世纪科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811345950.2/1.html,转载请声明来源钻瓜专利网。