[发明专利]搜索方法、搜索装置以及计算机设备在审
申请号: | 201910110323.9 | 申请日: | 2019-02-11 |
公开(公告)号: | CN111552767A | 公开(公告)日: | 2020-08-18 |
发明(设计)人: | 林方全;杨超;李越川;张京桥;杨程;马君 | 申请(专利权)人: | 阿里巴巴集团控股有限公司 |
主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F16/338 |
代理公司: | 北京博浩百睿知识产权代理有限责任公司 11134 | 代理人: | 谢湘宁;张文华 |
地址: | 英属开曼群岛大开*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 搜索 方法 装置 以及 计算机 设备 | ||
1.一种搜索方法,其特征在于,包括:
获取查询词;
对所述查询词进行分词,得到第一分词集合;
从所述第一分词集合中选择重要词;
确定与所述重要词的相似度大于预设阈值的文档,得到文档集合,并将所述文档集合作为检索结果。
2.根据权利要求1所述的方法,其特征在于,将所述文档集合作为检索结果之后,所述方法还包括:
获取客户端设备发送的文档数量;
对所述文档集合中的文档按照与所述重要词的相似度大小进行排列;并从排列后的文档集合中按照所述相似度从大到小的顺序,获取所述文档数量的文档,得到目标文档集合;
将所述目标文档集合作为所述检索结果反馈给所述客户端设备。
3.根据权利要求1所述的方法,其特征在于,确定与所述重要词的相似度大于预设阈值的文档,得到文档集合包括:
将所述重要词输入至第一模型进行分析,得到所述查询词的查询词向量,其中,所述第一模型为通过多组数据训练得到的,所述多组数据中的每组数据均包括:样本分词和与样本分词对应的向量;
对待查询文档集合中的待查询文档进行分词处理,得到第二分词集合;
将所述第二分词集合输入至所述第一模型进行分析,得到所述文档集合的文档向量;
确定所述文档向量与所述查询词向量的相似度;
从所述待查询文档集合中确定与所述重要词的相似度大于预设阈值的文档,并将确定的文档存储至所述文档集合中。
4.根据权利要求3所述的方法,其特征在于,所述第一模型通过以下方式训练得到:
获取对所述第一模型进行训练的样本数据,其中,该样本数据为样本查询词和样本文档的组合数据;
获取所述样本数据的词袋模型,其中,该词袋模型中的每个单词按照预设顺序进行编号,其中,编号的最大值为所述词袋模型所对应的单词表长度;
基于所述词袋模型确定所述样本数据的向量序列,其中,该向量序列中的向量元素为0或1;
将所述向量序列与实数矩阵进行结合,得到所述样本数据的实数向量,并将该实数向量作为所述第一模型的输出。
5.根据权利要求4所述的方法,其特征在于,将该实数向量作为所述第一模型的输出之前,所述方法还包括:
获取所述样本查询词的第一实数向量和所述样本文档的第二实数向量的相似度;
使用损失函数确定所述相似度对应的概率,并使用最大似然估计对所述实数矩阵进行估计,得到估计值;
基于随机梯度下降算法对所述实数矩阵进行优化,使得所述估计值最小。
6.根据权利要求5所述的方法,其特征在于,所述损失函数中设置有分组套索正则项,该分组套索正则项用于减小所述样本数据中每个分词的向量;将所述向量序列与实数矩阵进行结合,得到所述样本数据的实数向量之前,所述方法还包括:
删除所述样本数据中分词的实数向量小于指定阈值的实数向量。
7.根据权利要求1所述的方法,其特征在于,确定与所述重要词的相似度大于预设阈值的文档,得到文档集合包括:
对待查询文档集合中的待查询文档进行分词处理,得到第二分词集合;
将所述第二分词集合中的分词分别输入至语义匹配模型进行分析,得到所述第二分词集合中分词的向量集合,其中,所述语义匹配模型为通过多组数据训练得到的,所述多组数据中的每组数据均包括:样本分词和与样本分词对应的向量;
确定所述向量集合中的各个向量与所述重要词的分词相似度,得到多个相似度,并基于所述多个相似度确定所述重要词与所述待查询文档的相似度;
从所述待查询文档集合中确定与所述重要词的相似度大于预设阈值的文档。
8.根据权利要求7所述的方法,其特征在于,确定所述向量集合中的各个向量与所述重要词的分词相似度,得到多个相似度,包括:
将所述重要词的分词输入至所述语义匹配模型进行分析,得到所述重要词的词向量;
确定所述重要词的词向量和所述向量集合中各个向量的相似度,得到所述多个相似度。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于阿里巴巴集团控股有限公司,未经阿里巴巴集团控股有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910110323.9/1.html,转载请声明来源钻瓜专利网。
- 上一篇:BWP切换方法及通信装置
- 下一篇:一种电机系统能效检测方法及系统