[发明专利]一种校验中间页信息的方法和装置有效

专利信息
申请号: 201410674840.6 申请日: 2014-11-21
公开(公告)号: CN104462257B 公开(公告)日: 2018-03-30
发明(设计)人: 赵辉;闫庆宏;沙安澜 申请(专利权)人: 百度在线网络技术(北京)有限公司
主分类号: G06F17/30 分类号: G06F17/30
代理公司: 北京鸿德海业知识产权代理事务所(普通合伙)11412 代理人: 袁媛
地址: 100085 北京*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 校验 中间 信息 方法 装置
【权利要求书】:

1.一种校验中间页信息的方法,其特征在于,该方法包括:

抓取中间页,所述中间页以信息单元的形式整合展示查询结果;

利用预先配置的中间页模板从抓取的中间页中解析待校验数据项的内容,所述待校验数据项包含在所述信息单元中,若所述中间页包含多个信息单元,则所述待校验数据项以信息单元进行区分,所述待校验数据项的内容为所述中间页所指向的详情页的网站提供的结构化信息;

抓取所述中间页所指向的详情页;

利用预先配置的详情页模板从抓取的详情页中解析待校验数据项的内容;

将同一待校验数据项在中间页中的内容与在详情页中的内容进行比对;

输出比对结果;

其中所述中间页模板和所述详情页模板包括:待校验数据项的名称和XPath;依据所述XPath执行所述解析待校验数据项的内容。

2.根据权利要求1所述的方法,其特征在于,所述抓取中间页包括:

通过自定义参数构造查询请求,抓取所述查询请求对应的中间页。

3.根据权利要求2所述的方法,其特征在于,所述通过自定义参数构造查询请求包括:

从中间页网站提供的各查询类目中分别选择至多一个查询关键词进行组合,利用组合得到的查询关键词来构造查询请求。

4.根据权利要求1所述的方法,其特征在于,预先针对中间页url的类型信息配置所述中间页模板,在利用预先配置的中间页模板从抓取的中间页中解析待校验数据项的内容时,根据抓取的中间页url的类型信息确定利用的中间页模板;

预先针对详情页url的类型信息配置所述详情页模板,在利用预先配置的详情页模板从抓取的详情页中解析待校验数据项的内容时,根据抓取的详情页url的类型信息确定利用的详情页模板。

5.根据权利要求1所述的方法,其特征在于,从抓取的中间页中解析得到的待校验数据项的内容包括该中间页所指向的详情页地址;

利用该中间页所指向的详情页地址执行所述抓取所述中间页所指向的详情页。

6.根据权利要求1所述的方法,其特征在于,所述将同一待校验数据项在中间页中的内容与在详情页中的内容进行比对包括:

将同一待校验数据项在中间页中的内容与在详情页中的内容进行相似度计算,确定满足相似度要求的待校验数据项在中间页中的内容准确,确定不满足相似度要求的待校验数据项在中间页中的内容不准确。

7.一种校验中间页信息的装置,其特征在于,该装置包括:

第一抓取单元,用于抓取中间页,所述中间页以信息单元的形式整合展示查询结果;

第一解析单元,用于利用预先配置的中间页模板从抓取的中间页中解析待校验数据项的内容,所述待校验数据项包含在所述信息单元中,若所述中间页包含多个信息单元,则所述待校验数据项以信息单元进行区分,所述待校验数据项的内容为所述中间页所指向的详情页的网站提供的结构化信息;

第二抓取单元,用于抓取所述中间页所指向的详情页;

第二解析单元,用于利用预先配置的详情页模板从抓取的详情页中解析待校验数据项的内容;

比对单元,用于将同一待校验数据项在中间页中的内容与在详情页中的内容进行比对;

输出单元,用于输出所述比对单元的比对结果;

其中所述中间页模板和所述详情页模板包括:待校验数据项的名称和XPath;

所述第一解析单元根据中间页模板包括的XPath执行所述解析待校验数据项的内容;

所述第二解析单元根据详情页模板包括的XPath执行所述解析待校验数据项的内容。

8.根据权利要求7所述的装置,其特征在于,所述第一抓取单元,具体用于通过自定义参数构造查询请求,抓取所述查询请求对应的中间页。

9.根据权利要求8所述的装置,其特征在于,所述第一抓取单元,具体用于从中间页网站提供的各查询类目中分别选择至多一个查询关键词进行组合,利用组合得到的查询关键词来构造查询请求。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于百度在线网络技术(北京)有限公司,未经百度在线网络技术(北京)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201410674840.6/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top