[发明专利]文章搜索方法、装置及电子设备有效
申请号: | 201810680189.1 | 申请日: | 2018-06-27 |
公开(公告)号: | CN108932320B | 公开(公告)日: | 2021-01-26 |
发明(设计)人: | 潘岸腾 | 申请(专利权)人: | 阿里巴巴(中国)有限公司 |
主分类号: | G06F16/332 | 分类号: | G06F16/332 |
代理公司: | 北京博雅睿泉专利代理事务所(特殊普通合伙) 11442 | 代理人: | 余西西;马佑平 |
地址: | 310051 浙江省杭州市滨江*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文章 搜索 方法 装置 电子设备 | ||
1.一种文章搜索方法,其中,包括:
接收用户的文章搜索操作,获取对应的目标搜索词的搜索分词集合;
根据所述搜索分词集合,获取所述目标搜索词与文章数据库所包括的每个候选文章之间的相关性评分;
将所述相关性评分符合预设的搜索条件的候选文章,作为搜索结果提供给用户;
其中,获取所述目标搜索词与文章数据库所包括的任意候选文章之间的相关性评分,包括:
对该候选文章进行分词处理,得到多个候选文章分词以构成对应的候选文章分词集合;
对所述搜索分词集合中包括的每一个搜索分词,分别获取该搜索分词与所述候选文章分词集合中每个候选文章分词之间的分词相关值;
根据全部所述分词相关值求和得到的结果值以及相关性系数,获得目标搜索词与该候选文章之间的相关性评分,其中,所述相关性系数为一系数因子。
2.根据权利要求1所述的方法,其中,获取搜索分词集合的步骤包括:
获取与所述文章搜索操作对应的目标搜索词;
将所述目标搜索词进行分词处理,得到多个搜索分词以构成所述搜索分词集合。
3.根据权利要求1所述的方法,其中,所述获取分词相关值的步骤包括:
对所述文章数据库中包括的全部所述候选文章进行分词,获取包括所述搜索分词的候选文章的第一文章集合以及包括所述候选文章分词的第二文章集合;
获取所述第一文章集合与所述第二文章集合的文章交集,以及所述第一文章集合与所述第二文章集合的文章并集;
根据所述文章交集所包括的文章数目,以及所述文章并集所包括的文章数目,计算获取所述分词相关值。
4.根据权利要求1所述的方法,其中,计算得到所述相关性评分的步骤包括:
根据所述搜索分词的数目、所述候选文章分词的数目,计算得到相关性系数。
5.根据权利要求1所述的方法,其中,计算得到所述相关性评分的步骤包括:
根据所述搜索分词的数目、所述候选文章分词的数目以及预设的平滑系数,计算得到相关性系数。
6.根据权利要求1所述的方法,其中,
所述搜索条件是该候选文章的相关性评分的降序排序值在预设的排序值范围之内。
7.一种文章搜索装置,其中,包括:
搜索分词获取单元,用于接收用户的文章搜索操作,获取对应的目标搜索词的搜索分词集合;
相关性评分获取单元,用于根据所述搜索分词集合,获取所述目标搜索词与文章数据库所包括的每个候选文章之间的相关性评分;
搜索结果提供单元,用于将所述相关性评分符合预设的搜索条件的候选文章,作为搜索结果提供给用户;
所述相关性评分获取单元获取所述目标搜索词与文章数据库所包括的任意候选文章之间的相关性评分,包括:
对该候选文章进行分词处理,得到多个候选文章分词以构成对应的候选文章分词集合;
对所述搜索分词集合中包括的每一个搜索分词,分别获取该搜索分词与所述候选文章分词集合中每个候选文章分词之间的分词相关值;
根据全部所述分词相关值求和得到的结果值以及相关性系数,获得目标搜索词与该候选文章之间的相关性评分,其中,所述相关性系数为一系数因子。
8.一种电子设备,其中,包括:
存储器,用于存储可执行的指令;
处理器,用于根据所述可执行的指令的控制,运行所述电子设备执行如权利要求1-6所述的任意一项文章搜索方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于阿里巴巴(中国)有限公司,未经阿里巴巴(中国)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810680189.1/1.html,转载请声明来源钻瓜专利网。