[发明专利]用于搜索的挖掘方法、装置、存储介质及电子设备有效
申请号: | 201811194956.4 | 申请日: | 2018-10-15 |
公开(公告)号: | CN111046271B | 公开(公告)日: | 2023-04-25 |
发明(设计)人: | 孙连生;马镇新;熊逵 | 申请(专利权)人: | 阿里巴巴集团控股有限公司 |
主分类号: | G06F16/9535 | 分类号: | G06F16/9535 |
代理公司: | 北京合智同创知识产权代理有限公司 11545 | 代理人: | 李杰 |
地址: | 英属开曼群岛大开*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 用于 搜索 挖掘 方法 装置 存储 介质 电子设备 | ||
1.一种用于搜索的挖掘方法,其特征在于,所述方法包括:
响应于对输入的实体名称的搜索操作,确定与所述实体名称关联的多个文档;
对所述多个文档执行聚类操作,确定所述多个文档分别所属的第一事件;
基于属于所述第一事件的文档的数量,确定所述第一事件的热度;如果所述第一事件的热度大于预设的热度阈值,则确定所述第一事件为第二事件;
基于所述实体名称在文档的标题和正文中出现的次数,确定属于所述第二事件的文档中与所述实体名称的相关性最大的文档;确定与所述实体名称的相关性最大的文档为所述第二事件的代表文档;
确定所述代表文档的发布时间为所述第二事件的发生时间;基于所述第二事件的发生时间,确定所述第二事件的展示顺序。
2.根据权利要求1所述的方法,其特征在于,所述确定与所述实体名称关联的多个文档,包括:
基于所述实体名称在文档的标题和正文中出现的次数,对搜索引擎爬取到的文档进行排序,获得所述搜索引擎爬取到的文档的排序结果;
基于所述排序结果,确定与所述实体名称关联的多个文档。
3.根据权利要求1所述的方法,其特征在于,所述对所述多个文档执行聚类操作,确定所述多个文档分别所属的第一事件,包括:
针对所述多个文档中的每两个文档,确定两个文档之间的相似度;
如果所述两个文档之间的相似度大于预设的相似度阈值,则确定所述两个文档属于同一事件。
4.根据权利要求3所述的方法,其特征在于,所述确定两个文档之间的相似度,包括:
确定所述两个文档的正文内容之间的第一相似度、正文所包括的实体名称之间的第二相似度、标题内容之间的第三相似度以及标题所包括的实体名称之间的第四相似度;
基于所述第一相似度、所述第二相似度、所述第三相似度以及所述第四相似度,确定所述两个文档之间的相似度。
5.根据权利要求4所述的方法,其特征在于,所述确定所述两个文档的正文内容之间的第一相似度,包括:
针对所述两个文档中的第一文档,生成所述第一文档的正文内容的字向量和词向量;
针对所述两个文档中的第二文档,生成所述第二文档的正文内容的字向量和词向量;
确定所述第一文档的正文内容的字向量与所述第二文档的正文内容的字向量之间的第五相似度,以及所述第一文档的正文内容的词向量与所述第二文档的正文内容的词向量之间的第六相似度;
基于所述第五相似度和所述第六相似度,确定所述两个文档的正文内容之间的第一相似度。
6.根据权利要求4所述的方法,其特征在于,所述确定所述两个文档的正文所包括的实体名称之间的第二相似度,包括:
针对所述两个文档中的第一文档,生成所述第一文档的正文所包括的实体名称的第一向量;
针对所述两个文档中的第二文档,生成所述第二文档的正文所包括的实体名称的第二向量;
基于所述第一向量和所述第二向量,确定所述两个文档的正文所包括的实体名称之间的第二相似度。
7.根据权利要求4所述的方法,其特征在于,所述确定所述两个文档的标题内容之间的第三相似度,包括:
针对所述两个文档中的第一文档,生成所述第一文档的标题内容的字向量和词向量;
针对所述两个文档中的第二文档,生成所述第二文档的标题内容的字向量和词向量;
确定所述第一文档的标题内容的字向量与所述第二文档的标题内容的字向量之间的第七相似度,以及所述第一文档的标题内容的词向量与所述第二文档的标题内容的词向量之间的第八相似度;
基于所述第七相似度和所述第八相似度,确定所述两个文档的标题内容之间的第三相似度。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于阿里巴巴集团控股有限公司,未经阿里巴巴集团控股有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811194956.4/1.html,转载请声明来源钻瓜专利网。