[发明专利]一种查询语句的改写方法及装置在审
申请号: | 201811163273.2 | 申请日: | 2018-09-30 |
公开(公告)号: | CN110969024A | 公开(公告)日: | 2020-04-07 |
发明(设计)人: | 王浩;庞旭林;张晨 | 申请(专利权)人: | 北京奇虎科技有限公司 |
主分类号: | G06F40/30 | 分类号: | G06F40/30;G06F16/9535;G06F16/33;G06N3/08 |
代理公司: | 北京智汇东方知识产权代理事务所(普通合伙) 11391 | 代理人: | 康正德;陈智勇 |
地址: | 100088 北京市西城区新*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 查询 语句 改写 方法 装置 | ||
本发明提供了一种查询语句的改写方法及装置,所述方法包括:获取用户基于搜索引擎输入的初始查询语句,并将所述初始查询语句进行分词以获取所述初始查询语句包括的词语;将所述初始查询语句中的各词语分别表示为与各词语对应的词向量;调用改写模型,将所述与各词语对应的词向量分别输入所述改写模型后,基于所述改写模型生成并输出与所述初始查询语句的语义相似的至少一个查询关键词;其中,所述改写模型是由用户查询记录进行汇总处理后的训练数据集训练获得。基于本发明提供的方法可结合生成式和抽取式的优点,将用户在搜索引擎中输入的初始查询语句改写为更加准确且简洁的关键词查询,可以在节省用户搜索时间的同时进一步提升用户体验。
技术领域
本发明涉及自然语言处理技术领域,特别是涉及一种查询语句的改写方法及装置。
背景技术
随着搜索引擎的不断发展和智能手机的普及,用户通常会通过安装于智能手机中的搜索软件实现各种信息的搜索。但是,用户提交至搜索引擎的查询可能是口语化描述的自然语言查询,这会给搜索引擎带来不小的挑战。因为通常的搜索引擎更适用于输入由精准关键词组成的查询,由自然语言描述的查询会导致较差的返回结果,降低查询准确性。
发明内容
本发明提供了一种查询语句的改写方法及装置以克服上述问题或者至少部分地解决上述问题。
根据本发明的一个方面,提供了一种查询语句的改写方法,包括:
获取用户基于搜索引擎输入的初始查询语句,并将所述初始查询语句进行分词以获取所述初始查询语句包括的词语;
将所述初始查询语句中的各词语分别表示为与各词语对应的词向量;
调用改写模型,将所述与各词语对应的词向量分别输入所述改写模型后,基于所述改写模型生成并输出与所述初始查询语句的语义相似的至少一个查询关键词;其中,所述改写模型是由用户查询记录进行汇总处理后的训练数据集训练获得。
可选地,所述改写模型为编码器-解码器结构的网络模型;
所述调用改写模型,将所述与各词语对应的词向量分别输入所述改写模型后,基于所述改写模型生成并输出与所述初始查询语句的语义相似的至少一个查询关键词,包括:
调用改写模型,将所述与各词语对应的词向量分别输入所述改写模型,基于所述改写模型中的编码器对接收到的各词向量进行编码,并将所述各词向量分别表示为输入隐向量;
将所述输入隐向量输入所述改写模型中的解码器进行解码,生成并输出与所述初始查询语句的语义相似的至少一个查询关键词。
可选地,将所述输入隐向量输入所述改写模型中的解码器进行解码,生成并输出与所述初始查询语句的语义相似的至少一个查询关键词,包括:
将所述输入隐向量输入所述改写模型中的解码器进行解码;
分别在预设的词汇表和所述初始查询语句中选取至少一个生成式关键词和抽取式关键词;其中,所述预设的词汇表由所述训练数据集构建而成;
对所述生成式关键词和抽取式关键词进行分析,进而选取多个关键词作为与所述初始查询语句的语义相似的查询关键词后输出。
可选地,所述分别基于预设词汇和所述初始查询语句中选取至少一个生成式关键词和抽取式关键词,包括:
通过注意力机制计算所述词汇表中各词语的分布概率,并依据所述各词语分布概率选取至少一个生成式关键词;
通过注意力矩阵计算所述初始查询语句中各词语的权重,并依据所述各词语的权重选取至少一个抽取式关键词。
可选地,所述通过注意力机制计算所述词汇表中各词语的分布概率,并依据所述各词语分布概率选取至少一个生成式关键词,包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京奇虎科技有限公司,未经北京奇虎科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811163273.2/2.html,转载请声明来源钻瓜专利网。