[发明专利]基于实体的文本数据与XML文档的匹配方法在审

专利信息
申请号: 201511017999.1 申请日: 2015-12-29
公开(公告)号: CN105677740A 公开(公告)日: 2016-06-15
发明(设计)人: 蔡喁;杨卫东;刘木强 申请(专利权)人: 中国民用航空上海航空器适航审定中心
主分类号: G06F17/30 分类号: G06F17/30
代理公司: 上海容慧专利代理事务所(普通合伙) 31287 代理人: 于晓菁
地址: 200232*** 国省代码: 上海;31
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 基于 实体 文本 数据 xml 文档 匹配 方法
【说明书】:

技术领域

发明涉及数据集成技术领域,特别涉及一种利用实体抽取技术,针对文本数据 与可扩展标记语言(XML,EXtensibleMarkupLanguage)文档进行匹配以实现数据集成的 方法。

背景技术

在大数据的时代,很多企业采用大数据技术对各类数据进行集中统一分析,然而 大数据技术的前提是高效的数据集成。要为企业提供全面的数据共享,就需要把不同来源、 格式、特点性质的数据在逻辑上或物理上有机地集中。

数据集成为各种异构数据提供统一的表示、存储和管理。数据集成屏蔽了异构数 据之间的差异,通过异构数据集成系统统一操作。现有的异构数据集成的体系结构有三种: 联邦数据库、中间件结构和数据仓库结构。其中联邦数据库结构和中间件结构需要预处理 数据构建虚拟视图,因此属于虚拟视图(Virtualview)方法。数据仓库结构则直接将所有 数据集中在一起,形成新的统一的数据源,称为物化的(Materialized)方法。

数据集成中基础的操作之一是模式集成,而大多数基于模式匹配的需求来源于模 式集成。模式匹配的任务是利用一些相关信息寻找分布在给定的两个模式中的元素之间的 某种映射关系(语义对应关系)。由于模式匹配的复杂性,模式匹配需要使用各种技术来弥 补信息的不足,如利用字典、名称相似性、公共模式结构、公共值分布、重用映射结果、约束、 常识推理。迄今,各研究团体或组织已提出了许多匹配方法和原型系统。例如Cupid[1], SimilarityFlooding[2],COMA[3],LSD[4],Clio[5]等。

异构数据的集成已经得到广泛的研究,不仅包括关系数据库间的模式匹 配[1,2,3,4,5,6,7],还包括非结构化和结构化数据的匹配,例如XML数据间的匹配[8,9,10]和文本 与关系数据库间的匹配[11,12,13]等。

XML数据之间的匹配,主要应用在对大量的XML文档进行聚类、对异构数据源进行 基于XML的匹配等方面。由于半结构化、可扩展的特殊性质,XML可以灵活表示各种类型数 据。其实许多关系数据库模式的匹配算法,其模式也是采用XML作为中间表示。文献[9]采用 一种基于模式匹配的方法进行XML模式的聚类。该文的XML模式之间的相似度计算使用了语 法匹配器和结构匹配器。文献[10]则提出了一种XML模式匹配工具Hermes,匹配引擎使用了 元素和结构匹配器,其采用RDF库保存匹配过程的信息。

而文本与关系数据库间的匹配方面,文献[11]提出的SCORE系统,通过把和用户语 境相关的附加文件和查询结果相关联以改善结构化数据检索效果。文献[12]提出的EROCS 系统,将数据库视为一系列实体,识别出与给定文档最匹配的实体,其支持文档分段匹配不 同实体。文献[13]提出的LIPTUS系统与EROCS解决的问题类似,EROCS是面向一般匹配情景 的,LIPTUS则紧密结合实际需求,针对银行领域客户交流情景,通过客户ID或账号ID来建立 文本和关系数据库间的关联关系。LIPTUS分析文本信息自动抽取ID标识,然后与客户信息 绑定,实现用户行为分析和银行业务规划等需求。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国民用航空上海航空器适航审定中心,未经中国民用航空上海航空器适航审定中心许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201511017999.1/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top