[发明专利]网页信息提取方法及设备在审
申请号: | 201310529500.X | 申请日: | 2013-10-31 |
公开(公告)号: | CN103714116A | 公开(公告)日: | 2014-04-09 |
发明(设计)人: | 徐锐波;付赟 | 申请(专利权)人: | 北京奇虎科技有限公司;奇智软件(北京)有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京智汇东方知识产权代理事务所(普通合伙) 11391 | 代理人: | 康正德;薛峰 |
地址: | 100088 北京市西城区新*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 网页 信息 提取 方法 设备 | ||
技术领域
本发明涉及互联网应用领域,特别是涉及一种网页信息提取方法及设备。
背景技术
网页信息提取技术是一项关于从网页中提取目标信息的技术,即从自然语言文本和网页的结构化数据中提取有价值的信息的技术。
现有技术中的网页信息提取采用人工提取方法,通过观察网页及其源代码,由编程人员找出一些规则,再根据这些规则编写程序提取有价值的信息。为了让网页信息提取过程简单一些,编程人员构建了几种模式规范语言及其用户界面。
然而,现有技术中这种采用人工提取的方法至少存在着以下两点不足:首先,对网页中每个站点均需要人工编写规则,当需要抓取大批量的站点时,人工抽取规则并进行编写程序存在一定的错误率,并且成本过大。其次,当站点的页面结构发生变更时,原来的规则失去效力,因此需要人工再次进行规则的抽取及编码,而人工发现页面结构变更不及时导致网页信息提取依据的抽取规则无法实时更新,降低网页信息提取的准确性。
发明内容
鉴于上述问题,提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的网页信息提取方法和相应的网页信息提取设备。
依据本发明的一个方面,提供了一种网页信息提取方法,包括:获取根据网页内容自动生成的抽取规则;利用所述抽取规则提取网页信息;其中,所述抽取规则的生成方法如下:自动解析网页内容,查找出有价值的信息,其中,所述有价值的信息包括网页架构中可更改的信息;标识所述有价值的信息,自动学习并生成对应的所述抽取规则。
可选地,利用所述抽取规则提取网页信息,包括:利用所述抽取规则中的位置标识信息确定可提取的所述网页信息的位置,其中,所述抽取规则中包括位置标识信息;根据确定的位置对网页信息逐一进行提取。
可选地,所述位置标识信息标识可提取的所述网页信息的起始位置以及终止位置。
可选地,上述方法还包括:当所述网页架构发生改变时,自动分析新的网页架构,更新所述抽取规则。
可选地,所述网页包括列表页和/或详细页。
可选地,在所述列表页中,有价值的信息包括:在不同列表页中存在区别的信息;或者同一列表的不同记录项中存在区别的信息。
可选地,自动解析网页内容,查找出有价值的信息,包括:在不同列表页间查找差异区域,所述差异区域包括所述不同列表页中存在区别的信息;取最长的差异区域,作为列表区域,记录所述列表区域中的信息为有价值的信息。
可选地,自动解析网页内容,查找出有价值的信息,包括:对所述列表区域中的多个记录项进行对比;记录存在区域的不同记录项,将其作为有价值的信息。
可选地,在所述详细页中,有价值的信息包括:在指定时长内价值不变的信息,其中,所述价值不变的信息至少包括具有一定信息含量的信息,以及通过所述价值不变的信息能够访问其他链接的信息;或者在不同详细页中存在区别的信息。
可选地,自动解析网页内容之前,还包括:对待解析的网页进行页面内去噪。
依据本发明的另一个方面,提供了一种网页信息提取设备,包括:规则生成模块,配置为自动解析网页内容,查找出有价值的信息,其中,所述有价值的信息包括网页架构中可更改的信息;标识所述有价值的信息,学习并生成对应的所述抽取规则;获取模块,配置为获取根据网页内容自动生成的抽取规则;提取模块,配置为利用所述抽取规则提取网页信息。
可选地,所述规则声称模块还配置为当所述网页架构发生改变时,自动分析新的网页架构,更新所述抽取规则。
可选地,所述规则生成模块还配置为自动解析网页内容之前,对待解析的网页进行页面内去噪。
依据本发明实施例,能够获取根据网页内容自动生成的抽取规则,并利用上述自动生成的抽取规则提取网页信息,解决了现有技术中采用人工获取抽取规则并提取网页信息导致的存在一定错误率的问题,降低提取网页信息的成本。另外,本发明实施例能够自动生成提取网页信息依据的抽取规则,解决了现有技术中当页面结构发生变更时,人工发现页面结构变更不及时导致网页信息提取依据的抽取规则无法实时更新的问题,提高网页信息提取的准确性。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
根据下文结合附图对本发明具体实施例的详细描述,本领域技术人员将会更加明了本发明的上述以及其他目的、优点和特征。
附图说明
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京奇虎科技有限公司;奇智软件(北京)有限公司,未经北京奇虎科技有限公司;奇智软件(北京)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310529500.X/2.html,转载请声明来源钻瓜专利网。
- 信息记录介质、信息记录方法、信息记录设备、信息再现方法和信息再现设备
- 信息记录装置、信息记录方法、信息记录介质、信息复制装置和信息复制方法
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录设备、信息重放设备、信息记录方法、信息重放方法、以及信息记录介质
- 信息存储介质、信息记录方法、信息重放方法、信息记录设备、以及信息重放设备
- 信息存储介质、信息记录方法、信息回放方法、信息记录设备和信息回放设备
- 信息记录介质、信息记录方法、信息记录装置、信息再现方法和信息再现装置
- 信息终端,信息终端的信息呈现方法和信息呈现程序
- 信息创建、信息发送方法及信息创建、信息发送装置