[发明专利]Web表数据语义抽取及RDF构建方法在审

专利信息
申请号: 202110356757.4 申请日: 2021-04-01
公开(公告)号: CN113282793A 公开(公告)日: 2021-08-20
发明(设计)人: 盛杰;严丽;李代祎;江伟豪;屠要峰;周祥生;李忠良 申请(专利权)人: 南京航空航天大学
主分类号: G06F16/84 分类号: G06F16/84;G06F16/36;G06N5/02
代理公司: 南京经纬专利商标代理有限公司 32200 代理人: 曹芸
地址: 210016 江*** 国省代码: 江苏;32
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: web 数据 语义 抽取 rdf 构建 方法
【说明书】:

发明公开了一种Web表数据语义抽取及RDF构建方法,属于大数据知识工程领域。本发明包括以下几个步骤:(1)对于目标网页上的半结构化信息(表格为主)爬取;(2)对于爬取后的目标表格进行标准化以及数据预处理;(3)对于处理后的表格信息进行相应类型的算法的转换并将结果存储到目标数据库中。本发明服务于知识工程例如知识图谱的构建,更好地也更加细致地利用了Web中的表格资源,同时也可以处理同样结构的excel表格,对于包含信息抽取业务的一些任务和研究都有着一定的价值和效果。

技术领域

本发明涉及一种Web表数据语义抽取及RDF构建方法,属于大数据知识工程领域。

背景技术

语义Web旨在提供一个通用的语义框架,允许跨应用程序、业务和社区边界共享和重用数据。基于资源描述框架(RDF),Web数据可以在不丢失语义的前提下进行交换和集成。RDF是一种元数据模型,它以最小的限制性、灵活和有意义的方式描述Web上广泛使用的资源,因此具有良好的机器可读性。通过RDF,Web数据可以共享、交换或集成到数据仓库中,使应用程序能够在不同的上下文中使用这些数据。特别是在大数据和知识工程的背景下,海量数据被组织成RDF三重格式进行存储、查询和智能处理尽管RDF格式已被广泛认可和应用。然而,RDF的有效生成仍然是一个有待解决的问题。

RDF的生成主要基于关系数据库和XML文件。随着Web技术的不断发展和广泛应用,Web中使用了大量的表结构。Web上有超过数十亿个表,它们被认为是有价值的数据源。根据Google论文中提供的数据,他们从Web上140亿个原始html表中提取出1.5亿个关系表。许多现实世界的应用程序,如搜索引擎、联机分析处理(OLAP)功能和丰富的知识库,都可以从这些Web表中获益。因此,对Web表的理解越来越受到学术界和工业界的关注。应该注意的是,html表单通常缺乏机器可理解性。因此,很难将这些数据用于网络代理或机器处理。在许多情况下,网页中的html表单是基于后台关系数据库创建的。但是我们不能直接访问后台数据库。为了使HTML表单更具机器可读性和可处理性,有必要将Web 页面中的表转换为RDF,这也是知识工程很重要的一部分。

目前,人们已经致力于利用各种数据资源生成RDF,Web表在Web页面中得到了广泛的应用。然而,Web表具有多样化的结构和Web表,并且可能包含过多的脏数据。用Web 表生成RDF的工作非常少。在一些文献中,一些人设计了处理Web表生成RDF的工具。但它们对不同Web表的适应性有限,只能处理简单的Web表。而且在现实研究中,Web表被视为知识工程的数据源,需要对Web表采用了一系列的数据抽取技术。

在我们提出的方法中,我们预定了两种Web表类型。在此基础上,我们提出从网页中识别出的html表生成相应的RDF。我们开发了一个翻译工具来演示我们的方法。

发明内容

为了更好地利用Web资源中的表格数据,更好地服务于知识工程的一些工作,同时也是为了更好地处理一些不常见的半结构化表格,本发明提出了一种Web表数据语义抽取及 RDF构建方法。

本发明为解决其技术问题采用如下技术方案:

一种Web表数据语义抽取及RDF构建方法,包括如下步骤:

(1)根据现阶段Web环境中的表格数据设定一套标准化流程,将Web环境的原生的复杂 Web表格分别按照标题行,数据行,主键列与非主键列不同部分对应的不同方式映射成定义的标准形式;

(2)根据表格不同部分,包括标题行、数据行、主键列、非主键列分别设置了数据存储结构将其标准化后的数据进行存储;

(3)根据标准化后的不同类型表格分别构建了对应的映射成RDF数据的算法,从而实现了原生Web表格到RDF数据的转化。

本发明的有益效果如下:

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京航空航天大学,未经南京航空航天大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202110356757.4/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top