[发明专利]一种基于XML数据自动构建RDF数据的方法在审
申请号: | 202011445817.1 | 申请日: | 2020-12-09 |
公开(公告)号: | CN112559767A | 公开(公告)日: | 2021-03-26 |
发明(设计)人: | 刘玉春;马宗民 | 申请(专利权)人: | 南京航空航天大学 |
主分类号: | G06F16/36 | 分类号: | G06F16/36;G06F16/35;G06F16/84 |
代理公司: | 南京瑞弘专利商标事务所(普通合伙) 32249 | 代理人: | 徐激波 |
地址: | 210016 江*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 xml 数据 自动 构建 rdf 方法 | ||
1.一种基于XML数据自动构建RDF数据的方法,其特征在于,包括如下步骤:
步骤S1、解析XML数据文档的树形模型;先将元素按照起始标签的名称进行聚类,确定同类元素所对应的子模型,对同类所有元素的子模型进行整合,获得该聚合类所对应的抽象模型;根据所得抽象模型构建术语表RDF Schema;具体地,
针对XML数据文档中的进行归类,聚合为若干类En1,En2,L,Eni,L(ni∈Ne),将元素ei按照起始标签的名称归类到相应的聚合类Eni:
f1:(e∈E)→En1,L EniL,(ni∈Ne)
步骤S2、对所有元素的子模型modej∈MODni进行抽象整合获得该聚合类所对应的抽象模型smodni=(ni,{CNni,ANni,vni});其中ni是聚合类Eni中所有元素的标签名称,CNni是子元素的名称集合,ANni是元素的起始标签所包含的属性的名称集合,其中vni是逻辑变量,vni存在说明元素内嵌内容包含文本值,具体地:
(1)、当CNni=φ、ANni=φ、vni存在时,聚合类Eni所对应的抽象模型为smodni=(ni,vni),此时元素ej对应的子模型modej是简单子模型,即modej∈S;其中S代表子模型的集合,此时构建RDF三元组如下:
fpi:ni→pini,(ni∈Ne,pini∈PI)
Type(?pini,Property)
PropVal(range,?pini,?DateTypeIRI)
其中,PI代表RDF词汇表中属性的集合,DateTypeIRI代表了内置数据类型,pini代表ni所映射为的属性;
(2)、当vni不存在时,聚合类Eni所对应的抽象模型为smodni=(ni,{CNni,ANni});此时构建RDF三元组如下:
fci:ni→cini,(ni∈Ne,cini∈CI)
Type(?cini,Class)
fpi:{cn1,cn2,L,cnj,L}→{pi1,pi2,L,pij,L}(cnj∈CNni,pij∈PI,j=1,2,L,n)
Type(?pij,Property)(j=1,2,L,n)
PropVal(domain,?pij,?cini)
fci:cnj→cicnj(cnj∈CNni,cicnj∈CI)
PropVal(range,?pij,?cicnj)
PropVal(range,?pij,?DateTypeIRI)
fpi:{an1,an2,L,ank,L}→{pi1,pi2,L,pik,L}(ank∈ANni,pik∈PI,k=1,2,L,n)
Type(?pik,Property)(k=1,2,L,n)
PropVal(domain,?pik,?cini)
PropVal(range,?pik,?DateTypeIRI)
其中,CI代表RDF词汇表中类的集合。假设cnj∈CNni,则基于cnj可以构建属性pij。
(3)、聚合类Eni所对应的抽象模型为smodni=(ni,{CNni,ANni,vni});此时基于ni、CNni、ANni分别构建RDF Schema中的类和属性规则如下:
fci:ni→cini,(ni∈Ne,cini∈CI)
Type(?cini,Class)
fpi:{cn1,cn2,L,cnm,L}→{pi1,pi2,L,pim,L}(cnm∈CNni,pim∈PI,m=1,2,L,n)
Type(?pim,Property)(m=1,2,L,n)
PropVal(domain,?pim,?cini)
fci:cnq→cicnq(cnq∈CNni,cicnq∈CI)
PropVal(range,?pim,?cicnm)
PropVal(range,?pim,?DateTypeIRI)
fpi:{an1,an2,L,anp,L}→{pi1,pi2,L,pip,L}(anp∈ANni,pip∈PI,p=1,2,L,n)
Type(?pip,Property)(p=1,2,L,n)
PropVal(domain,?pip,?cini)
PropVal(range,?pip,?DateTypeIRI)
Type(value,Property)
步骤S3、根据步骤S2所述抽象模型对应的映射规则,构建当前领域的术语表RDFSchema如下:
frdfs:{En1,…Eni…}→RDF Schema(ni∈Ne)
其中XML文档全部聚合类的集合为XSD={En1,…Eni…}(ni∈Ne);
步骤S4、识别XML文档数据中的重复元素,具体地,
遍历XML文档的全部元素E和属性A,并附加唯一的ID;调整当前XML文档中元素和属性的ID,使等价元素和等价属性的ID相同;采用后根遍历法再次遍历XML的树形模型,从树形模型的底部向根部调整,识别文档中的等价元素和等价属性,并将等价元素和等价属性的ID调整统一;具体如下:
em∈CEei,en∈CEej,am∈EAei,an∈EAej
CLei={IDe1,IDe2,L IDem,L,IDa1,IDa2,L IDap,L}
CLej={IDe1,IDe2,L IDen,L,IDa1,IDa2,L IDaq,L}
em∈CEei,en∈CEej,ap∈EAei,aq∈EAej,ei→vi,ej→vj
CLei={IDe1,IDe2,L IDem,L,IDa1,IDa2,L IDap,L}
CLej={IDe1,IDe2,L IDen,L,IDa1,IDa2,L IDaq,L}
步骤S5、对当前的XML文档中的元素进行聚类后,基于步骤S2所述,将XML文档映射为RDF三元组序列;根据步骤S4,遍历对元素和属性的ID调整完成后的XML树形模型,存储映射过的元素ID集合为OID,构建RDF三元序列如下:
fr:(ni,IDei)→rei,(ni∈Ne,rei∈R)
t1=tv=(rei,rdf:value,vi)
PropVal(value,?rei,?vi)
{t1,t2,L}={tem|m=1,2,L}∪{tan|n=1,2,L}(piem→tem、pian→tan)
fr:(ni,IDei)→rei,(ni∈Ne,rei∈R)
fr:(nm,IDem)→rem,(nm∈Ne,rem∈R)
tan=(rei,pian,vn)
PropVal(?pian,?rei,?vi)
fr:(ni,IDei)→rei,(ni∈Ne,rei∈R)
tv=(rei,rdf:value,vi)
tv∈{t1,t2,L}
PropVal(value,?rei,?vi)。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京航空航天大学,未经南京航空航天大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011445817.1/1.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置