[发明专利]搜索的实现方法、装置、电子设备和存储介质在审
申请号: | 201811061039.9 | 申请日: | 2018-09-12 |
公开(公告)号: | CN110909217A | 公开(公告)日: | 2020-03-24 |
发明(设计)人: | 王浩;庞旭林;张晨 | 申请(专利权)人: | 北京奇虎科技有限公司 |
主分类号: | G06F16/9032 | 分类号: | G06F16/9032;G06F16/901;G06F16/907 |
代理公司: | 北京市隆安律师事务所 11323 | 代理人: | 权鲜枝 |
地址: | 100088 北京市西城区新*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 搜索 实现 方法 装置 电子设备 存储 介质 | ||
本发明公开了搜索的实现方法、装置、电子设备和存储介质。所述方法包括:获取搜索查询语句;从所述搜索查询语句中抽取出若干个候选词,以及根据所述搜索查询语句生成若干个候选词;根据抽取的候选词和生成的候选词,进一步生成改写语句;根据所述改写语句进行搜索查询,得到搜索结果。该技术方案结合了抽取和生成两种方式生成候选词,并进一步生成改写语句,实现了根据语义和场景对用户输入的搜索查询语句进行合理的改写,进一步使得搜索返回的结果贴近用户的实际需求。
技术领域
本发明涉及搜索技术领域,具体涉及搜索的实现方法、装置、电子设备和存储介质。
背景技术
通常,搜索引擎更适用于输入由精准关键词组成的查询,由自然语言描述的查询会导致较差的返回结果。例如,图1示出了不同查询语句对应的查询结果的示意图,如图1中所示,用户在搜索时可能会输入“我想知道一个iPhone X要多少钱”这样的自然语言,尤其是在语言搜索的场景下更是如此。但是显然,这样得到的搜索结果不尽人意,而如果根据语义更换搜索词,如“iPhone X价格”,则搜索结果相对更符合用户需求。因此,如何对搜索词进行更换是需要解决的问题。
发明内容
鉴于上述问题,提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的搜索的实现方法、装置、电子设备和存储介质。
依据本发明的一个方面,提供了一种搜索的实现方法,包括:获取搜索查询语句;从所述搜索查询语句中抽取出若干个候选词,以及根据所述搜索查询语句生成若干个候选词;根据抽取的候选词和生成的候选词,进一步生成改写语句;根据所述改写语句进行搜索查询,得到搜索结果。
可选地,所述搜索查询语句是根据用户输入的语音生成的。
可选地,所述从所述搜索查询语句中抽取出若干个候选词,以及根据所述搜索查询语句生成若干个候选词包括:对所述搜索查询语句进行编码,得到编码数据;以抽取模式对所述编码数据进行解码,输出第一候选词表,以及以生成模式对所述编码数据进行解码,输出第二候选词表。
可选地,所述对所述搜索查询语句进行编码,得到编码数据包括:对所述搜索查询语句进行词嵌入处理,得到所述搜索查询语句中包含的各词对应的词向量;根据各词向量进行编码,得到输入隐向量。
可选地,所述根据各词向量进行编码,得到隐向量包括:基于一层双向长短期记忆网络LSTM进行所述编码。
可选地,所述以抽取模式对所述编码数据进行解码,输出第一候选词表包括:根据所述输入隐向量计算注意力权重at;基于公式(1)和(2)计算所述搜索查询语句中各词的抽取权重:
其中,Pextract(w)为目标词w的抽取权重,pw为调节因子,fw为目标词w在所述搜索查询语句中出现的次数,N是语料中所有查询的次数,|w|是语料中包含目标词w的查询个数,t为t时刻;所述第一候选词表包括一个或多个词及其对应的抽取权重。
可选地,所述以生成模式对所述编码数据进行解码,输出第二候选词表包括:根据所述输入隐向量计算注意力权重at;根据所述注意力权重at和所述输入隐向量计算上下文权重Ct;根据所述注意力权重at、所述上下文权重Ct和当前时刻目标隐向量ht计算所述第二候选词表的分布概率Pvocab。
可选地,所述根据所述输入隐向量计算注意力权重at包括:基于公式(3)和(4)计算注意力权重at:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京奇虎科技有限公司,未经北京奇虎科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811061039.9/2.html,转载请声明来源钻瓜专利网。