[发明专利]一种不依赖文档库的多搜索引擎自动化对比评测方法有效

申请号：	201310538069.5	申请日：	2013-11-04
公开（公告）号：	CN103544307B	公开（公告）日：	2017-08-08
发明（设计）人：	张鹏飞;赵毅强	申请（专利权）人：	北京中搜云商网络技术有限公司
主分类号：	G06F17/30	分类号：	G06F17/30
代理公司：	北京安博达知识产权代理有限公司11271	代理人：	徐国文
地址：	100086 北京市海淀区***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明提供一种不依赖文档库的多搜索引擎自动化对比评测方法，其特征在于，所述方法包括如下步骤A.选择评测词；B.抓取搜索结果并保存为文档；C.提取文档正文；D.计算相关性；E.整合文档并按其相关性排序；F.计算DCG；G.按DCG结果进行排序，总结评测结果。通过本发明可以达到如下效果自动化，无需人工参与，节省大量人工；快速，可短时间内获得评测结果；灵活，本发明的过程中，多处采用了可配置的模式，相关性计算等还可以自行调整，因此具有很高的灵活性；可应用于多种垂直搜索中，不只是单纯的网页搜索，也可用于新闻搜索，视频搜索等。
搜索关键词：	一种不依赖文档搜索引擎自动化对比评测方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

一种不依赖文档库的多搜索引擎自动化对比评测方法，其特征在于，所述方法包括如下步骤：A.选择评测词；B.抓取搜索结果并保存为文档；C.提取文档正文；D.计算相关性；E.整合文档并按其相关性排序；F.计算DCG；G.按DCG结果进行排序，总结评测结果；所述评测词为选取的3000个搜索引擎结果中的高频词；所述相关性的计算方法包括：词频比例法；该方法的表达式为：相关性＝词频在本文档中所占比例*词频在所有抓取结果中所占比例；所述正文的提取方法包括：基于DOM树的HTML提取方法、文本最长串的正文提取法；所述基于DOM树的HTML提取方法包括：将HTML文本转化成一个DOM树，然后根据DOM树的节点分析来提取正文相关的内容，以除去页面中无关信息；该无关信息包括：页面噪音和HTML标签；所述文本最长串的正文提取法包括：在HTML页面内容中找到最长的文本串，然后再前后扩展，直到扩展到阈值，再进行截断，提取，得到文本的正文内容。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于北京中搜云商网络技术有限公司，未经北京中搜云商网络技术有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201310538069.5/，转载请声明来源钻瓜专利网。

上一篇：具附加功能的出水机构
下一篇：基于变频调速的草坪喷头变域喷洒周期确定方法

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理
G06F17-00 特别适用于特定功能的数字计算设备或数据处理设备或数据处理方法
G06F17-10 .复杂数学运算的
G06F17-20 .处理自然语言数据的
G06F17-30 .信息检索；及其数据库结构
G06F17-40 .数据的获取和记录
G06F17-50 .计算机辅助设计

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种不依赖文档库的多搜索引擎自动化对比评测方法有效

专利文献下载