[发明专利]一种从维基百科半结构化数据自动构建分类树的方法有效
申请号: | 201410040234.9 | 申请日: | 2014-01-27 |
公开(公告)号: | CN103778238A | 公开(公告)日: | 2014-05-07 |
发明(设计)人: | 刘均;魏笔凡;冯博琴;郑庆华;马健;王晨晨;吴蓓 | 申请(专利权)人: | 西安交通大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 西安通大专利代理有限责任公司 61200 | 代理人: | 蔡和平 |
地址: | 710049 陕*** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 百科 结构 数据 自动 构建 分类 方法 | ||
技术领域
本发明涉及知识获取技术领域,特别涉及一种利用维基百科半结构化数据自动构建分类树的方法。
背景技术
互联网促使信息数字化的进程加速,其上信息以指数增长。目前数字信息已呈现数量庞大、类型繁多、更新迅速等发展趋势。著名的Web搜索引擎Google索引的网页数量目前已经达到500亿。信息时代带来了海量的数字化文本,日益积累的数据使得信息的获取越来越困难。
在数量巨大的页面中含有人工编辑的半结构化数据,这些数据散落在不同的页面中,造成人们无法从大量页面中迅速而准确地找到这些有用的半结构化信息。
维基百科(www.wikipedia.org)是目前访问量最大的十个网站之一,维基百科页面由志愿者共同编辑,含有大量高质量的半结构化数据,这些半结构化数据中蕴藏着大量的上下位关系,因而需要自动化的抽取方法从这些半结构化数据中获取上下位关系,并进行融合最终形成分类树。
现有技术中尚未找到有关从维基百科半结构化数据中抽取上下位关系抽取及构建分类树的专利或者文献;只检索到了一篇与本专利相关的已授权专利:一种基于Web数值表格抽取的数据挖掘方法[专利号:ZL200910084507.9];该专利的发明人基于领域知识库,提出一种从Web数值表格抽取数值知识元库的方法。该专利所述方法依赖领域知识库,且只能处理数值表格,无法识别表格中字符串表示的实体及实体间的关系。
发明内容
本发明的目的是提供一种从维基百科半结构化数据自动构建分类树的方法,通过分析半结构化数据中的模式和实体,自动抽取出半结构化数据中的实体及它们间的上下位关系,从而可以大大减少计算量,降低计算复杂度。所述实体是指维基百科页面的标题及结构化数据中的最小处理单元。所述实体间的上下位关系是指实体间内在的分类关系。
为达到以上目的,本发明是采取如下技术方案予以实现的:
一种从维基百科半结构化数据自动构建分类树的方法,包括以下步骤:
第1步、半结构化数据的抽取:通过分析获取到页面的HTML,识别出含有半结构化数据的页面,所述半结构化数据指维基百科目录页面及维基百科条目页面中的导航表格;
第2步、半结构化数据中上下位关系的抽取:抽取维基百科目录页面中上下位关系和导航表格中上下位关系;
第3步、源于不同半结构化数据的上下位关系融合:依据抽取到的上下位关系集构建向有向无权简单图,然后基于图的深度优先遍历算法生成分类树。
本发明进一步的改进在于:第1步具体包括以下步骤:
第1.1步:从维基百科网站首页www.wikipedia.org开始,通过解析页面的超链接逐层爬取所有页面,依据页面URL前缀“http://en.wikipedia.org/wiki/”获取条目页面,依据URL前缀“http://en.wikipedia.org/wiki/Category:”获取目录页面,每个页面对应一个实体,页面标题为该实体的名字;
第1.2步:根据条目页面是否含有HTML标签<table class=″navbox″>,筛选出含有导航表格的条目页面。
本发明进一步的改进在于:第1步具体包括以下步骤:
1):通过Web页面爬取工具爬取维基百科首页http://www.wiki pedia.org/并进行解析,然后依据HTML标签<a>和</a>找出该页面中的所有匹配模式http/:∨∨[a-z]+/.wikipedia/.org∨的超链接,记为{head_linki}n’其中n表示所有不同语言的维基子网站数目;每个这样的超链接heaad_linnki对应一种语言的维基百科子网站,并且是该子网站的首页,枚举每个维基子网站首页的超链接head_linki;
2):构建空的哈希表,该哈希表用来记录某个页面是否已经被爬取过,使用页面的URL地址来标识不同的页面;
3):设置当前爬取页面地址为当前维基子网站首页,current_link=head_linki;
4):在HashSet查询curre nt_link,如果命中,表明页面已经被爬取过,则不再爬取跳转到第8步;如果该页面没有爬取过,则通过Web页面爬取工具爬取该页面,并将该链接加入到HashSet中,即执行HashSet.add(current_link);
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西安交通大学,未经西安交通大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410040234.9/2.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置