[发明专利]一种查询语句的改写方法及装置在审
申请号: | 201811163273.2 | 申请日: | 2018-09-30 |
公开(公告)号: | CN110969024A | 公开(公告)日: | 2020-04-07 |
发明(设计)人: | 王浩;庞旭林;张晨 | 申请(专利权)人: | 北京奇虎科技有限公司 |
主分类号: | G06F40/30 | 分类号: | G06F40/30;G06F16/9535;G06F16/33;G06N3/08 |
代理公司: | 北京智汇东方知识产权代理事务所(普通合伙) 11391 | 代理人: | 康正德;陈智勇 |
地址: | 100088 北京市西城区新*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 查询 语句 改写 方法 装置 | ||
1.一种查询语句的改写方法,包括:
获取用户基于搜索引擎输入的初始查询语句,并将所述初始查询语句进行分词以获取所述初始查询语句包括的词语;
将所述初始查询语句中的各词语分别表示为与各词语对应的词向量;
调用改写模型,将所述与各词语对应的词向量分别输入所述改写模型后,基于所述改写模型生成并输出与所述初始查询语句的语义相似的至少一个查询关键词;其中,所述改写模型是由用户查询记录进行汇总处理后的训练数据集训练获得。
2.根据权利要求1所述的方法,其中,所述改写模型为编码器-解码器结构的网络模型;
所述调用改写模型,将所述与各词语对应的词向量分别输入所述改写模型后,基于所述改写模型生成并输出与所述初始查询语句的语义相似的至少一个查询关键词,包括:
调用改写模型,将所述与各词语对应的词向量分别输入所述改写模型,基于所述改写模型中的编码器对接收到的各词向量进行编码,并将所述各词向量分别表示为输入隐向量;
将所述输入隐向量输入所述改写模型中的解码器进行解码,生成并输出与所述初始查询语句的语义相似的至少一个查询关键词。
3.根据权利要求1或2所述的方法,其中,将所述输入隐向量输入所述改写模型中的解码器进行解码,生成并输出与所述初始查询语句的语义相似的至少一个查询关键词,包括:
将所述输入隐向量输入所述改写模型中的解码器进行解码;
分别在预设的词汇表和所述初始查询语句中选取至少一个生成式关键词和抽取式关键词;其中,所述预设的词汇表由所述训练数据集构建而成;
对所述生成式关键词和抽取式关键词进行分析,进而选取多个关键词作为与所述初始查询语句的语义相似的查询关键词后输出。
4.根据权利要求1-3任一项所述的方法,其中,所述分别基于预设词汇和所述初始查询语句中选取至少一个生成式关键词和抽取式关键词,包括:
通过注意力机制计算所述词汇表中各词语的分布概率,并依据所述各词语分布概率选取至少一个生成式关键词;
通过注意力矩阵计算所述初始查询语句中各词语的权重,并依据所述各词语的权重选取至少一个抽取式关键词。
5.根据权利要求1-4任一项所述的方法,其中,所述通过注意力机制计算所述词汇表中各词语的分布概率,并依据所述各词语分布概率选取至少一个生成式关键词,包括:
通过score方法衡量所述初始查询语句中各词语的权重并计算其加权和计算得到上下文向量;
将所述上下文向量与当前时刻目标隐向量结合通过两层全连接层得到所述词汇表中各词语的分布概率;其中,所述目标隐向量为解码器在t时刻的隐含层变量;
在所述词汇表中预测并输出至少一个生成式关键词;
利用coverage机制辅助所述解码器输出不重复的生成式关键词。
6.根据权利要求1-5任一项所述的方法,其中,所述通过score方法衡量所述初始查询语句中各词语的权重并计算其加权和计算得到上下文向量,包括:
增加coverage向量covt,并设定cov0为全零矩阵;其中,t表示t时刻;
通过函数score计算目标隐向量和输入隐向量的相似度
其中,计算公式如下:
v、W1、W2、Wc和batten为所述查询改写模型的训练参数,表示t时刻的coverage向量,ht表示目标隐向量,表示输入隐向量;
将进行归一化处理,得到注意力权重at,at=softmax(et);
在时刻t,维护coverage矩阵covt记录所述初始查询语句中各词语的覆盖程度,
通过注意力权重at对所述输入隐向量加权求和得到t时刻的上下文向量,
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京奇虎科技有限公司,未经北京奇虎科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811163273.2/1.html,转载请声明来源钻瓜专利网。