[发明专利]搜索方法、装置及电子设备有效
申请号: | 202010329527.4 | 申请日: | 2020-04-24 |
公开(公告)号: | CN111222052B | 公开(公告)日: | 2020-08-11 |
发明(设计)人: | 郑培祥;段超;蔡明宸;刘忠义;张翼;李涛 | 申请(专利权)人: | 支付宝(杭州)信息技术有限公司 |
主分类号: | G06F16/9535 | 分类号: | G06F16/9535 |
代理公司: | 北京博思佳知识产权代理有限公司 11415 | 代理人: | 周嗣勇 |
地址: | 310000 浙江省杭州市*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 搜索 方法 装置 电子设备 | ||
公开一种搜索方法及装置、电子设备,该方法可以包括:获取用户输入的搜索数据样本,在用户的每次字符输入时为用户推荐的搜索模式,以及与所述搜索数据样本对应的搜索时长;将所述搜索数据样本中的输入字符作为状态,在用户输入该输入字符时为用户推荐的搜索模式作为动作,生成状态动作对,并将所述搜索时长作为与所述状态动作对对应的回报,对预设的强化学习模型进行强化学习训练,得到搜索决策模型;响应于用户输入的搜索数据,将用户每次输入的输入字符输入训练完成的所述搜索模式决策模型进行推荐计算,并将当前的搜索模式切换为所述搜索模式决策模型输出的搜索模式,以使用户基于所述搜索模式决策模型输出的搜索模式执行搜索。
技术领域
本申请涉及计算机应用技术领域,尤其涉及搜索方法、装置及电子设备。
背景技术
随着互联网技术的发展和普及应用,用户可以通过在业务系统中输入关键词进行搜索,得到业务系统返回的搜索结果;用户可以进一步根据该搜索结果,执行下一步业务操作。
发明内容
本说明书提出一种搜索方法,所述方法包括:
获取用户输入的搜索数据样本,在用户的每次字符输入时为用户推荐的搜索模式,以及与所述搜索数据样本对应的搜索时长;其中,所述搜索数据样本包括按照输入时刻排序的输入字符序列;所述搜索模式包括直接搜索模式和建议词搜索模式;所述搜索时长表征从用户开始输入字符到得到搜索结果的时间差;
将所述搜索数据样本中的输入字符作为状态,在用户输入该输入字符时为用户推荐的搜索模式作为动作,生成状态动作对,并将所述搜索时长作为与所述状态动作对对应的回报,对预设的强化学习模型进行强化学习训练,得到搜索决策模型;
响应于用户输入的搜索数据,将用户每次输入的输入字符输入训练完成的所述搜索模式决策模型进行推荐计算,并将当前的搜索模式切换为所述搜索模式决策模型输出的搜索模式,以使用户基于所述搜索模式决策模型输出的搜索模式执行搜索。
可选的,所述在用户的每次字符输入时为用户推荐的搜索模式,为在用户的每次字符输入时为用户随机推荐的搜索模式。
可选的,所述强化学习模型的回报函数的回报衰减因子为动态值。
可选的,所述强化学习模型的回报函数的回报衰减因子,为基于所述搜索数据中的所有字符输入完成时的最大输入次数确定出的动态值。
可选的,所述强化学习模型为深度强化学习模型;其中,所述深度强化学习模型包括用于拟合回报函数的衰减因子的深度学习网络;
所述对预设的强化学习模型进行强化学习训练,包括:
基于所述状态动作对和所述搜索时长构建训练样本,基于构建的训练样本对预设的强化学习模型进行强化学习训练,确定所述强化学习模型的回报函数中的模型参数;以及,
确定所述搜索数据样本中的最大字符输入次数,至少将所述最大字符输入次数作为输入数据输入至所述深度学习网络进行数据拟合,确定所述回报函数中的衰减因子。
可选的,所述回报函数基于以下公式表征:
其中, 为j时刻对应状态动作对的搜索时长; 为j+1时刻状态;表征该深度强化学习模型的模型参数;a′表征j时刻状态到j+1时刻状态所对应选择的动作,该动作为搜索模式,该搜索模式可以为直接搜索模式或者建议词搜索模式;f为用于表征拟合替代回报函数的衰减因子的深度学习网络;index表征用户输入搜索数据过程中的第index次输入,max_index表征用户完成输入搜索数据中的所有字符输入时的最大输入次数。
可选的,还包括:
在用户输入的搜索数据前,将当前的搜索模式默认设置为建议词搜索模式。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于支付宝(杭州)信息技术有限公司,未经支付宝(杭州)信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010329527.4/2.html,转载请声明来源钻瓜专利网。