[发明专利]一种基于HERITRIX和HTMLPARSER商品信息提取方法在审
申请号: | 201510129487.8 | 申请日: | 2015-03-24 |
公开(公告)号: | CN104731909A | 公开(公告)日: | 2015-06-24 |
发明(设计)人: | 焦毓葳;徐宏伟;崔乐乐 | 申请(专利权)人: | 浪潮集团有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06Q30/00 |
代理公司: | 济南信达专利事务所有限公司 37100 | 代理人: | 姜明 |
地址: | 250101 山东*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种基于HERITRIX和HTMLPARSER商品信息提取方法,所述的商品信息提取方法是:用HtmlParser对Web页面进行解析,提取出网页中的超链接,从而获取有用信息;用heritrix扩展爬取逻辑,修改模块Heritrix,准确抓取商品网页信息。本发明的一种基于HERITRIX和HTMLPARSER商品信息提取方法和现有技术相比,利用HtmlParser对Web页面进行解析,可提取出网页中的超链接,从而获取有用信息,具有提取速度快的优点;利用heritrix 扩展爬取逻辑,能准确抓取商品网页信息,改进爬取效率。 | ||
搜索关键词: | 一种 基于 heritrix htmlparser 商品信息 提取 方法 | ||
【主权项】:
一种基于HERITRIX和HTMLPARSER商品信息提取方法,其特征在于,所述的商品信息提取方法是:用HtmlParser对Web页面进行解析,提取出网页中的超链接,从而获取有用信息;用heritrix扩展爬取逻辑,修改模块Heritrix,准确抓取商品网页信息。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浪潮集团有限公司;,未经浪潮集团有限公司;许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201510129487.8/,转载请声明来源钻瓜专利网。