[发明专利]网页搜索结果质量检测方法及装置在审
申请号: | 201910150340.5 | 申请日: | 2019-02-28 |
公开(公告)号: | CN109948030A | 公开(公告)日: | 2019-06-28 |
发明(设计)人: | 邵彬;吴楠;田伟;李毅;陈炜鹏;许静芳 | 申请(专利权)人: | 北京搜狗科技发展有限公司 |
主分类号: | G06F16/953 | 分类号: | G06F16/953;G06F16/903 |
代理公司: | 北京华圣典睿知识产权代理有限公司 11510 | 代理人: | 赵景平 |
地址: | 100084 北京市海淀区中关*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 查询语句 网页搜索结果 搜索结果 相似特征 质量检测 输出确定 用户搜索 构建 | ||
本发明公开了一种网页搜索结果质量检测方法及装置,该方法包括:获取查询语句及与所述查询语句对应的搜索结果项;确定所述查询语句与所述搜索结果项的相似特征;将所述相似特征输入预先构建的相关性判断模型,根据所述相关性判断模型的输出确定所述搜索结果项与所述查询语句的相关性。利用本发明,可以准确地判别网页搜索结果与用户搜索内容的相关性。
技术领域
本发明涉及网页搜索领域,具体涉及一种网页搜索结果质量检测方法及装置。
背景技术
搜索引擎作为互联网领域的搜索系统,已成为用户上网必不可少的工具之一。目前,随着互联网的不断发展,网络中的信息也呈现井喷式增长,如何快速并准确地在海量网络信息中获取用户关心的信息成为搜索引擎的核心问题。为此产生了站内搜索引擎,顾名思义,站内搜索引擎即网站内的信息搜索引擎。
随着搜索技术的不断普及,大多数站点都支持站内搜索功能,这样就会产生大量的站内搜索结果页面,但不同站点的搜索效果参差不齐,评估搜索结果的页面质量在网页搜索过程中对结果项排序起着非常重要的作用,而判别站内搜索结果的相关性是评估该类页面质量的关键。传统的判断方法是单纯计算查询语句与搜索结果之间的文本相似度,这种方法对查询语句和搜索结果页整体相关性的判断效果较差,判断结果的准确性有待提高。
发明内容
本发明实施例提供一种网页搜索结果质量检测方法及装置,以便能够准确地判别网页搜索结果与用户搜索内容的相关性。
为此,本发明提供如下技术方案:
一种网页搜索结果质量检测方法,所述方法包括:
获取查询语句及与所述查询语句对应的搜索结果项;
确定所述查询语句与所述搜索结果项的相似特征;
将所述相似特征输入预先构建的相关性判断模型,根据所述相关性判断模型的输出确定所述搜索结果项与所述查询语句的相关性。
可选地,所述方法还包括按照以下方式构建所述相关性判断模型:
收集大量查询语句及与所述查询语句对应的搜索结果项,并将所述搜索结果项作为训练样本;
确定所述查询语句与对应的各训练样本的相关特征值;
利用所述查询语句与对应的训练样本的相关特征值,确定所述查询语句与所述训练样本的相似特征;
利用所述查询语句与所述训练样本的相似特征训练得到所述相关性判断模型。
可选地,所述确定所述查询语句与对应的各训练样本的相关特征值包括:
采用特定方法分别计算所述查询语句与对应的各训练样本的相似度,得到对应特定方法的相关特征值;所述特定方法包括以下任意一种或多种:字符串匹配方法、词向量方法、集合相似度方法。
可选地,利用词向量方法计算所述查询语句与所述训练样本的相似度包括:
分别获取所述查询语句对应的语句向量及所述训练样本对应的样本向量;
分别将所述语句向量及所述样本向量映射为直方图;
利用所述直方图计算所述查询语句与所述训练样本的相似度。
可选地,所述分别将所述语句向量及所述文本向量映射为直方图包括:
分别为向量中的每维特征划分区间,并统计每个区间包含的特征个数;所述向量包括所述语句向量或所述样本向量;
根据所述特征个数绘制所述向量对应的直方图。
可选地,利用集合相似度方法计算所述查询语句与所述训练样本的相似度包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京搜狗科技发展有限公司,未经北京搜狗科技发展有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910150340.5/2.html,转载请声明来源钻瓜专利网。