[发明专利]一种多源异质数据库间概念对齐与内容互译方法及系统有效
申请号: | 202110882106.9 | 申请日: | 2021-08-02 |
公开(公告)号: | CN113707339B | 公开(公告)日: | 2022-12-09 |
发明(设计)人: | 徐颂华;代笃伟;李宗芳;徐宗本 | 申请(专利权)人: | 西安交通大学 |
主分类号: | G16H70/20 | 分类号: | G16H70/20;G16H50/70;G06F16/36;G06F40/253;G06F40/30;G06K9/62;G06N3/04;G06N3/08 |
代理公司: | 西安通大专利代理有限责任公司 61200 | 代理人: | 王艾华 |
地址: | 710049 *** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 多源异 质数 据库间 概念 对齐 内容 方法 系统 | ||
1.一种多源异质数据库间概念对齐与内容互译方法,其特征在于,具体如下:
获取待处理数据库的基本信息,依据所述基本信息判断待处理数据库的缺陷类型;
对于数据字典未知的数据库:利用函数依存性和概率统计模型得到多源异质数据库中数据异构以及数据字典未知的数据字段间的函数映射关系,基于不确定性函数映射关系挖掘实现数据库间概念对齐与内容互译;
对于数据字典不完全、不可靠或相互矛盾的异构数据库:依据各数据库自身携带的数据本体模型,首先将多源异质医疗数据库中涉及的概念及其关系表示为若干图结构,进而将数据库间概念对齐和内容互译的问题转换为图同构的判定问题,采用无监督的图表征学习方法得到图的结构信息与属性信息,再基于深度学习的弱监督图分类方法,根据所述图的结构信息与属性信息,给予等价的概念图相同的标签,进而实现多源异质数据库进行概念对齐和内容互译;
对于字典与数据同时存在且各有缺陷的数据库,首先构建联合学习框架,引入互注意力机制,在本体逻辑规则的指引下,发掘医学文本中潜在的医学知识,同时,将医学文本中潜在的医学知识反馈给基于本体构建的知识图谱中,使得单词与实体、文本关系模式与图谱关系模式的特征充分融合,实现单词与实体、文本关系模式与图谱关系模式的全面对齐;
用互注意力机制、知识增强方法和深度神经网络对实体进行学习和标注,对实体进行细粒度分类,将细粒度的医疗概念组成本体视图,将细粒度概念实例化后组成实例视图,最后使用跨视图关联模型和内部视图模型对知识图谱进行跨视图学习和内部视图学习,进而实现概念对齐与内容互译。
2.根据权利要求1所述的多源异质数据库间概念对齐与内容互译方法,其特征在于,对于数据字典未知的数据库,对于结构化的数据,直接基于不确定性函数映射关系挖掘实现数据库间的概念对齐与内容互译;对于非结构化数据,先将其转换为结构化医疗数据,再利用自然语言处理方法实现数据库间概念对齐与内容互译,具体如下:
从待分析的数据库中抽取所需数据,并采用数据清洗和归一化对数据进行预处理;
首先根据概念的数值分布规律,对多源数据库中的概念做初步对齐,将不同概念表示为不同的参数分布,通过参数分布间的统计规律,例如平均数、中位数、协方差等,计算数据概念间的相似度,对数据概念做初步的对齐;
其次,利用数据概念间的潜在关系对初步对齐的数据概念做进一步的对齐,当概念、关系和属性值均对齐后,即可实现多源异质数据间的概念对齐和内容互译。
3.根据权利要求1所述的多源异质数据库间概念对齐与内容互译方法,其特征在于,将非结构化数据转换为结构话数据时,基于对抗学习的多源异质数据库间关系抽取模型,挖掘不同数据库之间潜在的互补性和一致性,从未经标注的医疗数据自由文本中抽取实体间的关系,得到结构化的医疗数据,进而将实体与关系转换为知识,为语义理解和智能推断提供基础数据,具体如下:
首先,依托现有的医学知识图谱,通过由改进的聚类算法以及双向循环神经网络组成的集成学习模块对中文医学文本进行分词,从分词之后的中文医学文本中抽取复杂描述方式的医学实体,并通过深度学习排序,将抽取的医学实体的描述对应到标准实体上,完成医学文本中的实体抽取和共指消歧;
其次,基于对抗学习的多源异质数据库关系抽取模型,使用对抗学习方法在多源异质数据库环境下学习单一数据库的独特性质,同时在全局融合多源异质数据库的共有特性,为多源异质数据库关系抽取模型利用多种数据库语料获取更准确的知识。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西安交通大学,未经西安交通大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110882106.9/1.html,转载请声明来源钻瓜专利网。