[发明专利]一种搜索结果的挖掘方法和装置在审
申请号: | 201910517274.0 | 申请日: | 2019-06-14 |
公开(公告)号: | CN112084434A | 公开(公告)日: | 2020-12-15 |
发明(设计)人: | 李芳芳 | 申请(专利权)人: | 北京奇虎科技有限公司 |
主分类号: | G06F16/9538 | 分类号: | G06F16/9538;G06K9/62 |
代理公司: | 北京市隆安律师事务所 11323 | 代理人: | 权鲜枝 |
地址: | 100088 北京市西城区新*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 搜索 结果 挖掘 方法 装置 | ||
本发明公开了一种搜索结果的挖掘方法和装置。所述方法包括:获取若干个搜索关键词的第一搜索结果截图和第二搜索结果截图;从第一搜索结果截图和第二搜索结果截图中抽取图片特征,根据抽取的图片特征重新进行图片渲染,得到渲染后的第一搜索结果截图和第二搜索结果截图;对渲染后的第一搜索结果截图和第二搜索结果截图进行聚类,得到评价值较高的一类以及评价值较低的一类作为聚类结果;所述评价值与颜色丰富度和/或形态丰富度相关;基于聚类结果挖掘出评价值较低的搜索结果。有益效果在于,可以自动化地对海量的搜索结果进行挖掘,得到评价值较低的搜索结果,后续可对相应搜索关键词的搜索结果进行针对性的优化,有助于提升用户满意度。
技术领域
本发明涉及信息挖掘领域,具体涉及一种搜索结果的挖掘方法和装置。
背景技术
互联网上的信息是海量的,人们为了便捷地获取互联网上的信息、共享互联网信息资源等,往往借助于搜索引擎的帮助。但囿于不同的搜索引擎使用不同的算法和信息展示方式等因素,针对同一搜索关键词使用不同搜索引擎进行搜索时常会产生不同的展示结果。人们对这些搜索结果也会有不同的评价。为了实现对海量搜索结果进行持续的优化展示以提升评价值,需要一种自动化的搜索结果挖掘方法对搜索结果进行对比分析和挖掘,从而识别出评价值较低的搜索结果,作为后续优化工作的依据。
发明内容
鉴于上述问题,提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的一种搜索结果的挖掘方法和装置。
依据本发明的一个方面,提供了一种搜索结果的挖掘方法,包括:
获取若干个搜索关键词的第一搜索结果截图和第二搜索结果截图;
从第一搜索结果截图和第二搜索结果截图中抽取图片特征,根据抽取的图片特征重新进行图片渲染,得到渲染后的第一搜索结果截图和第二搜索结果截图;
对渲染后的第一搜索结果截图和第二搜索结果截图进行聚类,得到评价值较高的一类以及评价值较低的一类作为聚类结果;所述评价值与颜色丰富度和/或形态丰富度相关;
基于聚类结果挖掘出评价值较低的搜索结果。
可选地,所述获取若干个搜索关键词的第一搜索结果截图和第二搜索结果截图包括:
获取各搜索关键词在第一搜索引擎中的搜索结果页面,并得到与各搜索关键词对应的第一搜索结果截图;以及获取各搜索关键词在第二搜索引擎中的搜索结果页面,并得到与各搜索关键词对应的第二搜索结果截图。
可选地,所述第一搜索结果截图和所述第二搜索结果截图是对相应搜索结果页面截图后剪切掉头部和/或尾部得到的。
可选地,所述第一搜索引擎为搜索结果待挖掘的搜索引擎,所述第二搜索引擎为用于参照的搜索引擎;
所述基于聚类结果挖掘出评价值较低的搜索结果包括:若一个搜索关键词的第一搜索结果截图在评价值较低的一类,而第二搜索结果截图在评价值较高的一类,则将该搜索关键词在第一搜索引擎中的搜索结果作为评价值较低的搜索结果。
可选地,所述从第一搜索结果截图和第二搜索结果截图中抽取图片特征包括:
对第一搜索结果截图和第二搜索结果截图进行合并处理,得到若干张合并图片;
对合并图片中的各像素点根据颜色进行聚类,得到各类簇的颜色中心值;
所述根据抽取的图片特征重新进行图片渲染,得到渲染后的第一搜索结果截图和第二搜索结果截图包括:
根据所述颜色中心值分别重新渲染各第一搜索结果截图和第二搜索结果截图。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京奇虎科技有限公司,未经北京奇虎科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910517274.0/2.html,转载请声明来源钻瓜专利网。