[发明专利]一种不依赖文档库的多搜索引擎自动化对比评测方法有效
申请号: | 201310538069.5 | 申请日: | 2013-11-04 |
公开(公告)号: | CN103544307B | 公开(公告)日: | 2017-08-08 |
发明(设计)人: | 张鹏飞;赵毅强 | 申请(专利权)人: | 北京中搜云商网络技术有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京安博达知识产权代理有限公司11271 | 代理人: | 徐国文 |
地址: | 100086 北京市海淀区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 不依赖 文档 搜索引擎 自动化 对比 评测 方法 | ||
技术领域
本发明属于搜索引擎领域,具体涉及一种不依赖文档库的多搜索引擎自动化对比评测方法。
背景技术
如今的网络环境下,搜索引擎已成为网民必不可少的工具;在互联网中,存在许多搜索引擎。在对比各搜索引擎结果方面,主要有两种方法:一种是人工选择一些关键词在各搜索引擎上进行搜索,得到结果页面,将每条搜索结果进行打分,然后比对分数来评测出各搜索引擎间的优劣;另一种方法是依赖文档库的,按照准确率和召回率来进行各搜索引擎算法的评测。
人工评测搜索引擎的结果需要耗费大量的人力资源和时间。如果一个搜索引擎处于优化的状态中,需要频繁地进行评测,这无疑会给人工评测带来巨大的难题,使人工评测变得不现实。
依赖文档库的方法只能用于线下的搜索引擎,由于各搜索引擎间的文档库不同,其无法对线上运行的搜索引擎进行评测。
发明内容
为了克服上述现有技术的不足,本发明提供一种能够自动化地快速地将线上的搜索引擎进行评价的方法,通过该方法可以对比各搜索引擎间的结果差异,适合进行各搜索引擎间的定期对比评测和在优化搜索引擎时频繁地进行评测来查看优化的算法是否成功。
为了实现上述发明目的,本发明采取如下技术方案:
一种不依赖文档库的多搜索引擎自动化对比评测方法,其特征在于,所述方法包括如下步骤:
A.选择评测词;
B.抓取搜索结果并保存为文档;
C.提取文档正文;
D.计算相关性;
E.整合文档并按其相关性排序;
F.计算DCG;
G.按DCG结果进行排序,总结评测结果。
优选地,所述评测词包括:网页搜索中的页面搜索关键词、视频搜索中的影片名称或演员姓名。
优选地,其特征在于,所述抓取包括两次抓取过程;
第一次抓取包括:根据关键词生成搜索引擎的搜索结果链接,进行第一次抓取,用模板从各搜索引擎中提取出每个结果的相关信息和各结果页面详细信息的链接,并保存;所述模板为包括搜索条件的正则表达式;
第二次抓取包括:根据第一次抓取中取得的结果页面详细信息的链接抓取相应页面,并按顺序分别保存为文档。
优选地,所述正文的提取方法包括:基于DOM树的HTML提取方法、文本最长串的正文提取法;
所述基于DOM树的HTML提取方法包括:将HTML文本转化成一个DOM树,然后根据DOM树的节点分析来提取正文相关的内容,以除去页面中无关信息;该无关信息包括:页面噪音和HTML标签;
所述文本最长串的正文提取法包括:在HTML页面内容中找到最长的文本串,然后再前后扩展,直到扩展到阈值,再进行截断,提取,得到文本的正文内容。
优选地,所述相关性的计算方法包括:词频比例法;该方法的表达式为:相关性=词频在本文档中所占比例*词频在所有抓取结果中所占比例。
优选地,所述按相关性排序包括:将所述文档平分为若干等级,并为每个等级设定相应的相关系数分数。
优选地,所述计算DCG如下式表达:
式中,s为文档总篇数,i为该文档所在等级的序数,reli为该文档所在等级的相关系数分数。
优选地,将所述步骤F中所得计算结果进行排序并分析,得出多种输出结果,生成报表;所述输出结果包括:步骤F中所得计算结果的平均DCG分数排名,总DCG分数排名,所有关键词中搜索结果优劣个数排名。
与现有技术相比,本发明的有益效果在于:
1)自动化,无需人工参与,节省大量人工;
2)快速,可短时间内获得评测结果;
3)灵活,本发明的过程中,多处采用了可配置的模式,相关性计算等还可以自行调整,因此具有很高的灵活性;
4)整套方法可应用于多种垂直搜索中,不只是单纯的网页搜索,也可用于新闻搜索,视频搜索等。
附图说明
图1是本发明评测过程流程图。
具体实施方式
下面结合附图对本发明作进一步详细说明。
根据对各搜索引擎的分析以及用户使用搜索引擎的调研等,可以确认用户对搜索引擎的关注大多在准确性和排序两方面,准确性是为了确保搜索结果显示出的内容是用户想要的,排序时为了把越贴近用户需求的结果排在前面,让用户不需要下拉或者翻页就能直接找到想要的内容,因此本发明主要以这两方面作为出发点来实现各搜索引擎的结果的评测。
具体步骤如下:
1)选择评测词
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京中搜云商网络技术有限公司,未经北京中搜云商网络技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310538069.5/2.html,转载请声明来源钻瓜专利网。
- 上一篇:具附加功能的出水机构
- 下一篇:基于变频调速的草坪喷头变域喷洒周期确定方法