[发明专利]网页信息抽取方法有效
申请号: | 201410818097.7 | 申请日: | 2014-12-24 |
公开(公告)号: | CN104462540B | 公开(公告)日: | 2018-03-30 |
发明(设计)人: | 脱立恒;董微;刘学;陆世亮 | 申请(专利权)人: | 中国科学院声学研究所;上海尚恩华科网络科技股份有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京亿腾知识产权代理事务所11309 | 代理人: | 陈霁 |
地址: | 100190 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 网页 信息 抽取 方法 | ||
技术领域
本发明涉及网页技术领域,特别涉及一种网页信息抽取方法。
背景技术
伴随着互联网及应用和服务的普及,网上信息量以指数级增长,海量的数据使用户遭遇了选择困难的问题。用户搜索到的信息很大一部分是不感兴趣的或是不相关的。因此,采集互联网上的数据,收集用户感兴趣的内容,抽取有用信息将其集成结构化数据,呈现给用户的相关技术变得十分重要。Web页面具有动态异构性的特点,Web页面会随着时间的变化发生动态改变,且不同的网站之前具有异构性的特点,因此从不同的Web页面中抽取有用的信息也具有相当的难度,且耗时。
发明内容
本发明的目的是提供了一种网页信息抽取方法,提高网页信息抽取的准确率和效率。
为实现上述目的,本发明提供了一种网页信息抽取方法,所述方法包括:
对网页Web的页面数据建立文档对象模型DOM树,从所述DOM树中递归选取包含所有待抽取信息的节点子树,选取所述节点子树中所述所有待抽取信息的属性节点的路径、值节点的路径和最小的子树,将所述最小的子树的根节点作为超文本标记语言HTML标签相对特征坐标系的原点;
将从DOM树中训练得到待抽取信息的属性和值在HTML标签相对特征坐标系中的路径,生成属性坐标和值坐标,根据所述相对特征坐标系的原点、所述属性坐标和值坐标定位所述待抽取信息,其中所述所有待抽取信息包括所述待抽取信息;
将所述属性坐标和所述值坐标作为所述待抽取信息的抽取规则,其中,不同的待抽取信息训练出的抽取规则不同,所述所有待抽取信息的抽取规则组成所述Web的抽取规则集合并生成包装器;
通过所述包装器的抽取规则的属性坐标和值坐标,定位所述待抽取信息的属性和值,并抽取Web信息。
进一步地,所述方法还包括:构建所述HTML标签相对特征坐标系:
将所述所有待抽取信息中的第一个待抽取信息的属性或值所在HTML标签的相关节点作为训练坐标原点;
在以所述训练坐标原点为根节点的子树中查找所述待抽取信息的属性和值;
当所述训练坐标原点不能定位所述所有待抽取信息的属性和值时,更新所述训练坐标原点,将所述训练坐标原点的父节点作为更新后的训练坐标原点;
当所述训练坐标原点能定位所述所有待抽取信息的属性和值时,将所述所有待抽取信息中的每个待抽取信息的属性和值所在标签到当前训练坐标原点的路径作为所述每个待抽取信息的属性坐标和值坐标,所述每个待抽取信息的属性坐标和值坐标组成的坐标系构建所述HTML标签相对特征坐标系。
进一步地,所述方法还包括:在满足所述抽取规则的准确率和召回率阈值的情况下,同类Web页面数据生成的包装器最小,所述包装器中的抽取规则所定位的标签的路径最短。
进一步地,在所述通过所述包装器的抽取规则的属性坐标和值坐标,定位所述待抽取信息的属性和值之前,所述方法还包括:
定位所述待抽取信息的抽取坐标原点,根据所述训练坐标原点的文本特征和正则表达式匹配,查找出所述抽取坐标原点所在标签。
进一步地,所述抽取Web信息具体包括:
对所述Web建立HTML标签相对特征坐标系;
对所述Web中的所述待抽取信息建立属性坐标和值坐标;
利用训练集中的网页修正所述待抽取信息的属性坐标和值坐标,使得所述待抽取信息的属性坐标和值坐标能够定位到固定阈值比例的待抽取信息,并将所述待抽取信息的属性坐标和值坐标作为所述待抽取信息的抽取规则;
对于同类的Web页面数据,将所有待抽取信息的属性坐标和值坐标对组合,并构成同类的Web页面数据的包装器;
通过所述坐标原点的文本特征和正则表达式,查找出所述坐标原点的标签,当所述包装器中的抽取规则定位到的属性坐标与所述待抽取信息的属性一致时,则所述包装器中的抽取规则定位到的值坐标为所述待抽取信息。
进一步地,所述抽取Web信息具体还包括:
对于不同类的Web页面数据,将所有待抽取信息的属性坐标和值坐标对组合,并构成不同类的Web页面数据的包装器集合。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院声学研究所;上海尚恩华科网络科技股份有限公司,未经中国科学院声学研究所;上海尚恩华科网络科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410818097.7/2.html,转载请声明来源钻瓜专利网。
- 信息记录介质、信息记录方法、信息记录设备、信息再现方法和信息再现设备
- 信息记录装置、信息记录方法、信息记录介质、信息复制装置和信息复制方法
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录设备、信息重放设备、信息记录方法、信息重放方法、以及信息记录介质
- 信息存储介质、信息记录方法、信息重放方法、信息记录设备、以及信息重放设备
- 信息存储介质、信息记录方法、信息回放方法、信息记录设备和信息回放设备
- 信息记录介质、信息记录方法、信息记录装置、信息再现方法和信息再现装置
- 信息终端,信息终端的信息呈现方法和信息呈现程序
- 信息创建、信息发送方法及信息创建、信息发送装置