[发明专利]一种多源异质数据库间概念对齐与内容互译方法及系统有效
申请号: | 202110882106.9 | 申请日: | 2021-08-02 |
公开(公告)号: | CN113707339B | 公开(公告)日: | 2022-12-09 |
发明(设计)人: | 徐颂华;代笃伟;李宗芳;徐宗本 | 申请(专利权)人: | 西安交通大学 |
主分类号: | G16H70/20 | 分类号: | G16H70/20;G16H50/70;G06F16/36;G06F40/253;G06F40/30;G06K9/62;G06N3/04;G06N3/08 |
代理公司: | 西安通大专利代理有限责任公司 61200 | 代理人: | 王艾华 |
地址: | 710049 *** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 多源异 质数 据库间 概念 对齐 内容 方法 系统 | ||
本发明公开一种多源异质数据库间概念对齐与内容互译方法及系统,方法为对于数据字典未知的数据库,采用基于数据驱动概念对齐与内容互译方法,采用不确定性函数映射关系挖掘实现数据库间的概念对齐与内容互译;对于字典不完全、不可靠或相互矛盾的异构数据库间,采用基于本体驱动的概念对齐与内容互译的方法;在图同构的判定问题求解的视角下,采用基于无监督的图表征学习方法实现图同构判定;对于字典与数据同时存在且各有缺陷的数据库之间,采用基于数据与本体双驱动的概念对齐与内容互译的方法,借助跨视图领域知识图谱实现概念对齐和内容互译;通过协同挖掘多系统内数据与本体间的映射关系,实现精准、高效、鲁棒、低数据依赖性的对齐互译。
技术领域
本发明属于大数据处理及多源数据融合技术领域,具体涉及一种多源异质数据库间概念对齐与内容互译方法及系统。
背景技术
目前医疗机构众多信息系统中存在数据架构与字典未知、不完全、不可靠或相互矛盾、系统之间数据关联不清晰、系统值域标准不统一等问题。在区域医疗层面,这些问题更严重,机构间点对点的接口开发(概念对齐和内容互译)不具有大规模推广的可行性。为了实现多源异质多数据库之间的互联互通,近些年来,许多学者提出采用本体(元数据)作为中介进行数据集成,以通过数据源与标准本体之间的映射来解决语义问题,卫生健康领域的集成平台主要通过事先建立医学本体库来获取业务系统中的数据含义,辅助数据理解。国家也针对不同医疗场景制定了许多数据元和数据集标准。然而,构建统一的全局本体库往往很难预先设计好,当各个局部的数据源有动态的增加、删减或修改时,这种统一本体库的手段灵活性差,难以在较短时间内满足用户要求。另一个难点在于,目前业务系统关系数据库模式与本体之间的映射缺乏自动化工具,人力成本巨大。每家医院信息系统的数据结构、疾病、检验、症状、用药、手术操作的名称差异较大且命名不规范。如果希望做统一本体管理和映射,不仅涉及医疗信息系统设计问题,也涉及医学语言的表达能力与使用习惯以及专科之间的差异问题,目前还没有哪个区域平台能比较好地解决这个问题。由于映射过程过于复杂,缺乏性能优越的算法,数据库模式(schema)与本体之间映射大部分仍以人工的方式为主。整个集成工作严重依赖于分析人员开展大量的数据梳理工作,数据分析人员通过工具分析表结构、抽取概要数据、与业务专家交谈等方式,完成对数据库数据的情况分析,系统实施周期较长,映射成本高。
为了能够更直观地构建数据库与本体之间的映射,许多项目开发了图形化的映射工具,可以让用户以交互方式构建数据库与本体之间的映射,典型的项目有COG、DartGrid、VisAVis等。但这种半自动工具对于降低人力成本作用有限。
总的来说,当前的方法分为两大类:人工映射和自动映射。人工映射扩展性差,工作量指数级增长;自动映射受噪音影响严重,需大量人工标注,未获工业界采纳。
发明内容
为了解决现有技术中存在的问题,本发明提供一种多源异质数据库间概念对齐与内容互译方法及系统,在不破坏现有业务系统存储结构、管理模式与语言使用习惯的前提下,实现多系统间的语义互通与互操作。
为了实现上述目的,本发明采用的技术方案是:一种多源异质数据库间概念对齐与内容互译方法,具体如下:
获取待处理数据库的基本信息,依据所述基本信息判断待处理数据库的缺陷类型;
对于数据字典未知的数据库:利用函数依存性和概率统计模型得到多源异质数据库中数据异构以及数据字典未知的数据字段间的函数映射关系,基于不确定性函数映射关系挖掘实现数据库间概念对齐与内容互译;
对于数据字典不完全、不可靠或相互矛盾的异构数据库:依据各数据库自身携带的数据本体模型,首先将多源异质医疗数据库中涉及的概念及其关系表示为若干图结构,进而将数据库间概念对齐和内容互译的问题转换为图同构的判定问题,采用无监督的图表征学习方法得到图的结构信息与属性信息,再基于深度学习的弱监督图分类方法,根据所述图的结构信息与属性信息,给予等价的概念图相同的标签,进而实现多源异质数据库进行概念对齐和内容互译;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西安交通大学,未经西安交通大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110882106.9/2.html,转载请声明来源钻瓜专利网。