[发明专利]检索项的生成方法及相关装置有效
申请号: | 201710642152.5 | 申请日: | 2017-07-31 |
公开(公告)号: | CN110019658B | 公开(公告)日: | 2023-01-20 |
发明(设计)人: | 谢润泉;连凤宗;黄泽谦 | 申请(专利权)人: | 腾讯科技(深圳)有限公司 |
主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F16/332;G06N20/00 |
代理公司: | 深圳市深佳知识产权代理事务所(普通合伙) 44285 | 代理人: | 王仲凯 |
地址: | 518000 广东省深圳*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 检索 生成 方法 相关 装置 | ||
本申请提供了本申请提供了一种检索项的生成方法,该方法使用机器学习模型来确定检索词语中各个词的去留情况,机器学习模型是由具有目标词特征的检索词语样本训练而成的,相比现有的检索项的生成方法而言,目标词特征能反映词对查询结果重要程度,使用该种目标词特征训练而成的机器学习模型,对检索词语中词选择结果更加精确,从而生成更加准确的检索项,进而避免召回不相关的查询结果。另外,本申请还提供了用于生成检索项的相关装置,用以保证上述方法在实际中的实现及应用。
技术领域
本申请涉及检索技术领域,更具体地,涉及检索项的生成方法及相关装置。
背景技术
搜索,是指获得检索词语(query)后,按照一定的查询策略从网络中搜集与检索词语相匹配的信息,将信息组织及处理后进行展示等操作。
具体地,在搜索时会对检索词语进行分词操作,得到若干独立的词(term),并检索与各个词相关的信息列表,再求取每个词所对应的信息列表的交集,从而得到召回文档。通常地,使用所有词的信息列表求交得到的召回文档数量过少且优质文档不能召回,因此需要对检索词语获得的词进行筛选,选择出用于检索的词,这些词的集合可以称为检索项,然后仅使用所选择的词的信息列表获得召回文档即可。
目前在生成检索项时,选择的词准确度不高,容易造成召回文档与检索词语相关性较差的问题。
发明内容
有鉴于此,本申请提供了一种检索项的生成方法,使用该方法生成的检索项得到的查询结果准确度更高。
第一方面,本申请提供了一种检索项的生成方法,包括:
获得预先由检索词语样本训练得到的机器学习模型,其中所述检索词语样本包含词,所述词具有目标词特征,所述目标词特征用于表示所述词对查询结果的重要程度;
获得目标检索词语,并确定所述目标检索词语中的词在所述目标词特征上的特征值;
将所述目标检索词语及所述特征值输入至所述机器学习模型中,得到所述目标检索词语对应的检索项。
第二方面,本申请提供了一种检索项的生成装置,包括:
机器学习模型获得单元,用于获得预先由检索词语样本训练得到的机器学习模型,其中所述检索词语样本包含词,所述词具有目标词特征,所述目标词特征用于表示所述词对查询结果的重要程度;
目标词特征值获得单元,用于获得目标检索词语,并确定所述目标检索词语中的词在所述目标词特征上的特征值;
检索项生成单元,用于将所述目标检索词语及所述特征值输入至所述机器学习模型中,得到所述目标检索词语对应的检索项。
第三方面,本申请提供了一种检索项的生成设备,包括:
输入单元,用于输入检索词语样本;
处理器,用于训练所述检索词语样本训练,以得到的机器学习模型,其中所述检索词语样本包含词,所述词具有目标词特征,所述目标词特征用于表示所述词对查询结果的重要程度;获得目标检索词语,并确定所述目标检索词语中的词在所述目标词特征上的特征值;以及将所述目标检索词语及所述特征值输入至所述机器学习模型中,得到所述目标检索词语对应的检索项。
由以上技术方案可知,本申请提供了一种检索项的生成方法,该方法使用机器学习模型来确定检索词语中各个词的去留情况,机器学习模型是使用具有目标词特征的检索词语样本训练而成的,相比现有的检索项的生成方法而言,目标词特征能反映词对查询结果重要程度的特征,使用该种目标词特征训练而成的机器学习模型,能够更加准确地确定检索词语中词的去留情况,从而生成更加准确的检索项,进而避免召回不相关的查询结果。
附图说明
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯科技(深圳)有限公司,未经腾讯科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710642152.5/2.html,转载请声明来源钻瓜专利网。
- 上一篇:处理方法、装置和机器可读介质
- 下一篇:裁判文书的检索方法及装置