[发明专利]一种基于XML数据自动构建RDF数据的方法在审

专利信息
申请号: 202011445817.1 申请日: 2020-12-09
公开(公告)号: CN112559767A 公开(公告)日: 2021-03-26
发明(设计)人: 刘玉春;马宗民 申请(专利权)人: 南京航空航天大学
主分类号: G06F16/36 分类号: G06F16/36;G06F16/35;G06F16/84
代理公司: 南京瑞弘专利商标事务所(普通合伙) 32249 代理人: 徐激波
地址: 210016 江*** 国省代码: 江苏;32
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 xml 数据 自动 构建 rdf 方法
【权利要求书】:

1.一种基于XML数据自动构建RDF数据的方法,其特征在于,包括如下步骤:

步骤S1、解析XML数据文档的树形模型;先将元素按照起始标签的名称进行聚类,确定同类元素所对应的子模型,对同类所有元素的子模型进行整合,获得该聚合类所对应的抽象模型;根据所得抽象模型构建术语表RDF Schema;具体地,

针对XML数据文档中的进行归类,聚合为若干类En1,En2,L,Eni,L(ni∈Ne),将元素ei按照起始标签的名称归类到相应的聚合类Eni

f1:(e∈E)→En1,L EniL,(ni∈Ne)

步骤S2、对所有元素的子模型modej∈MODni进行抽象整合获得该聚合类所对应的抽象模型smodni=(ni,{CNni,ANni,vni});其中ni是聚合类Eni中所有元素的标签名称,CNni是子元素的名称集合,ANni是元素的起始标签所包含的属性的名称集合,其中vni是逻辑变量,vni存在说明元素内嵌内容包含文本值,具体地:

(1)、当CNni=φ、ANni=φ、vni存在时,聚合类Eni所对应的抽象模型为smodni=(ni,vni),此时元素ej对应的子模型modej是简单子模型,即modej∈S;其中S代表子模型的集合,此时构建RDF三元组如下:

fpi:ni→pini,(ni∈Ne,pini∈PI)

Type(?pini,Property)

PropVal(range,?pini,?DateTypeIRI)

其中,PI代表RDF词汇表中属性的集合,DateTypeIRI代表了内置数据类型,pini代表ni所映射为的属性;

(2)、当vni不存在时,聚合类Eni所对应的抽象模型为smodni=(ni,{CNni,ANni});此时构建RDF三元组如下:

fci:ni→cini,(ni∈Ne,cini∈CI)

Type(?cini,Class)

fpi:{cn1,cn2,L,cnj,L}→{pi1,pi2,L,pij,L}(cnj∈CNni,pij∈PI,j=1,2,L,n)

Type(?pij,Property)(j=1,2,L,n)

PropVal(domain,?pij,?cini)

fci:cnj→cicnj(cnj∈CNni,cicnj∈CI)

PropVal(range,?pij,?cicnj)

PropVal(range,?pij,?DateTypeIRI)

fpi:{an1,an2,L,ank,L}→{pi1,pi2,L,pik,L}(ank∈ANni,pik∈PI,k=1,2,L,n)

Type(?pik,Property)(k=1,2,L,n)

PropVal(domain,?pik,?cini)

PropVal(range,?pik,?DateTypeIRI)

其中,CI代表RDF词汇表中类的集合。假设cnj∈CNni,则基于cnj可以构建属性pij

(3)、聚合类Eni所对应的抽象模型为smodni=(ni,{CNni,ANni,vni});此时基于ni、CNni、ANni分别构建RDF Schema中的类和属性规则如下:

fci:ni→cini,(ni∈Ne,cini∈CI)

Type(?cini,Class)

fpi:{cn1,cn2,L,cnm,L}→{pi1,pi2,L,pim,L}(cnm∈CNni,pim∈PI,m=1,2,L,n)

Type(?pim,Property)(m=1,2,L,n)

PropVal(domain,?pim,?cini)

fci:cnq→cicnq(cnq∈CNni,cicnq∈CI)

PropVal(range,?pim,?cicnm)

PropVal(range,?pim,?DateTypeIRI)

fpi:{an1,an2,L,anp,L}→{pi1,pi2,L,pip,L}(anp∈ANni,pip∈PI,p=1,2,L,n)

Type(?pip,Property)(p=1,2,L,n)

PropVal(domain,?pip,?cini)

PropVal(range,?pip,?DateTypeIRI)

Type(value,Property)

步骤S3、根据步骤S2所述抽象模型对应的映射规则,构建当前领域的术语表RDFSchema如下:

frdfs:{En1,…Eni…}→RDF Schema(ni∈Ne)

其中XML文档全部聚合类的集合为XSD={En1,…Eni…}(ni∈Ne);

步骤S4、识别XML文档数据中的重复元素,具体地,

遍历XML文档的全部元素E和属性A,并附加唯一的ID;调整当前XML文档中元素和属性的ID,使等价元素和等价属性的ID相同;采用后根遍历法再次遍历XML的树形模型,从树形模型的底部向根部调整,识别文档中的等价元素和等价属性,并将等价元素和等价属性的ID调整统一;具体如下:

em∈CEei,en∈CEej,am∈EAei,an∈EAej

CLei={IDe1,IDe2,L IDem,L,IDa1,IDa2,L IDap,L}

CLej={IDe1,IDe2,L IDen,L,IDa1,IDa2,L IDaq,L}

em∈CEei,en∈CEej,ap∈EAei,aq∈EAej,ei→vi,ej→vj

CLei={IDe1,IDe2,L IDem,L,IDa1,IDa2,L IDap,L}

CLej={IDe1,IDe2,L IDen,L,IDa1,IDa2,L IDaq,L}

步骤S5、对当前的XML文档中的元素进行聚类后,基于步骤S2所述,将XML文档映射为RDF三元组序列;根据步骤S4,遍历对元素和属性的ID调整完成后的XML树形模型,存储映射过的元素ID集合为OID,构建RDF三元序列如下:

fr:(ni,IDei)→rei,(ni∈Ne,rei∈R)

t1=tv=(rei,rdf:value,vi)

PropVal(value,?rei,?vi)

{t1,t2,L}={tem|m=1,2,L}∪{tan|n=1,2,L}(piem→tem、pian→tan)

fr:(ni,IDei)→rei,(ni∈Ne,rei∈R)

fr:(nm,IDem)→rem,(nm∈Ne,rem∈R)

tan=(rei,pian,vn)

PropVal(?pian,?rei,?vi)

fr:(ni,IDei)→rei,(ni∈Ne,rei∈R)

tv=(rei,rdf:value,vi)

tv∈{t1,t2,L}

PropVal(value,?rei,?vi)。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京航空航天大学,未经南京航空航天大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202011445817.1/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top