[发明专利]基于语义相似度与时效性频率的查询推荐排序方法与装置有效
申请号: | 201710296992.0 | 申请日: | 2017-04-28 |
公开(公告)号: | CN107122469B | 公开(公告)日: | 2019-12-17 |
发明(设计)人: | 蔡飞;陈洪辉;陈皖玉;刘俊先;罗爱民;陈涛;舒振;罗雪山;郭昱普 | 申请(专利权)人: | 中国人民解放军国防科学技术大学 |
主分类号: | G06F16/9535 | 分类号: | G06F16/9535;G06F17/27 |
代理公司: | 11270 北京派特恩知识产权代理有限公司 | 代理人: | 蒋雅洁;张颖玲 |
地址: | 410003 湖*** | 国省代码: | 湖南;43 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 语义 相似 时效性 频率 查询 推荐 排序 方法 装置 | ||
1.一种基于语义相似度与时效性频率的查询推荐排序方法,其特征在于,包括:
获取用户查询记录数据集并采集查询词前缀;
根据查询词前缀生成查询推荐列表并确定时效性频率的查询字排序;
根据用户查询记录数据集与训练用文本数据集计算查询词中第一查询字与其他查询字的语义相似度,并确定语义相似度的查询词排序;
根据时效性频率排序、语义相似度排序与字词权衡参数获得查询推荐排序,并根据查询推荐排序对查询推荐列表中的每个查询词排序显示;
对一个查询推荐的排序问题,由于公式
分母中的λ值并不影响查询推荐之间的相对顺序,因此,最终的查询推荐排序得分简化为:
p(q|p)∝p(w|p)×(p(q|w)+λ-1);
其中,p(q|p)为排序得分,0≤λ≤1,p(w|p)表示用户输入查询前缀p后,生成查询字w的概率,而p(q|w)表示产生第一个查询字w后生成查询词q的概率;为了计算这些概率值,采用最大似然估计来近似,p(w|p)主要依赖于查询字的在一段时间内的出现次数,而p(q|w)则主要依赖于查询字之间的语义相似度。
2.根据权利要求1所述的方法,其特征在于,所述确定时效性频率的查询字排序包括:
提取查询推荐列表所有查询词中的第一查询字;
从用户查询记录数据集中获取每个查询字在指定时间内的出现频率;
根据所有查询词的第一查询字与每个查询字在指定时间内的出现频率确定时效性频率的查询字排序。
3.根据权利要求1所述的方法,其特征在于,所述根据用户查询记录数据集与训练用文本数据集计算查询词中第一查询字与其他查询字的语义相似度包括:
根据用户查询记录数据集获得基于用户查询记录数据集的第一查询字与其他查询字之间的语义相似度;
根据训练用文本数据集获得基于训练用文本数据集的第一查询字与其他查询字之间的语义相似度;
根据基于用户查询记录数据集的第一查询字、其他查询字之间的语义相似度与基于训练用文本数据集的第一查询字与其他查询字之间的语义相似度与语义整合权衡参数确定查询词中第一查询字与其他查询字的语义相似度;
针对搜集到的用户查询记录,训练Skip-gram模型,这样确保测试阶段的每个查询中的查询字能被Skip-gram模型的向量表示;基于用户查询记录生成的Skip-gram模型,计算查询词q中第一个查询字w1与其他查询字wi∈q之间的语义相似度,以Sq(wi,w1)表示;最后,公式
中的查询字之间的语义相似度p(wi|w1)通过如下计算而得:
p(wi|w1)=ω×Sr(wi,w1)+(1-ω)×Sq(wi,w1)
其中,Ssem为语义相似度,q为查询词,w为基于查询词的第一个查询字,p为查询前缀,Sr(wi,w1)是基于Google-News文本数据集训练获得的查询字w1与其他查询字wi∈q之间的语义相似度,Sq(wi,w1)基于用户查询记录数据集训练获得的查询字w1与其他查询字wi∈q之间的语义相似度,采用ω来线性整合,获取最终查询字之间的语义相似度,ω是一个权衡参数,在[0,1]之间。
4.根据权利要求3所述的方法,其特征在于,所述根据用户查询记录数据集获得基于用户查询记录数据集的第一查询字与其他查询字之间的语义相似度包括:
使用用户查询记录数据集训练skip-gram模型;
根据用户查询记录数据集训练的skip-gram模型获得基于用户查询记录数据集的第一查询字与其他查询字之间的语义相似度。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国人民解放军国防科学技术大学,未经中国人民解放军国防科学技术大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710296992.0/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种已鉴定文物的信息存档方法
- 下一篇:一种继电保护动作范围可视化方法