[发明专利]一种数据处理方法及相关设备在审
申请号: | 201910540408.0 | 申请日: | 2019-06-20 |
公开(公告)号: | CN110263184A | 公开(公告)日: | 2019-09-20 |
发明(设计)人: | 孙海霞;钱庆;邓盼盼;李姣;沈柳 | 申请(专利权)人: | 中国医学科学院医学信息研究所 |
主分类号: | G06F16/36 | 分类号: | G06F16/36;G06F17/27 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 王宝筠 |
地址: | 100020*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 词表 术语系统 分配标识 目标匹配 数据处理 版本更新 版本升级 时间成本 数据包括 预设规则 自动更新 时间差 新版本 更新 匹配 节约 申请 升级 | ||
本申请实施例提供了一种数据处理方法及相关设备,可以实现集成术语系统中新版本来源词表中变化概念的自动更新,提高了集成术语系统版本更新效率,大大节约了时间成本,缩短集成术语系统概念升级与来源词表版本升级之间的时间差。该方法包括:将待更新的来源词表进行注册,以得到目标来源词表;确定所述目标来源词表中的目标词表数据,所述目标词表数据包括已分配标识的术语以及已分配标识的概念;将所述目标词表数据与第一来源词表的第一词表数据进行匹配,以确定所述目标来源词表相对于所述第一来源词表的目标匹配结果;根据所述目标匹配结果以及预设规则对所述集成术语系统中的词表数据进行更新。
技术领域
本申请涉及数据处理领域,特别涉及一种数据处理方法及相关设备。
背景技术
同义词表、分类表、编码系统、叙词表、本体、知识图谱等术语系统在信息资源描述、组织、管理、发现等方面的强大功能已经得到图书情报界、自然语言处理、医学信息学等相关领域的广泛认可。在过去的几十年中,由于各领域各类术语系统的编制与发展主要面向某一具体任务和应用环境需要,因而在概念表达、概念粒度、概念属性和概念间语义关系等内容设置、数据结构、存储格式等方面也各不相同,严重限制了使用不同术语系统的计算机应用程序之间的通信,进而限制了不同信息资源系统之间的互操作和共享利用。在不同术语系统之间进行互操作,方便使用不同术语系统的计算机应用程序之间进行无障碍理解和对话,已成为打破该限制核心技术。集成术语系统构建是实现不同术语系统互操作的一种,通过将某一特定主题领域的若干术语系统注册汇编在一起,以术语为基本单元,以概念为核心,以来源词表的原有关系为依托,通过对不同来源词表中表征同一概念的术语归并连接在一起,形成新的同义词组或准同义词组,并推荐出新的来源术语作为概念的优选形式;基于归并后形成的概念实现不同来源词表语义关联。这样的集成术语系统也称为多来源词网络系统,已构成各类信息资源互通互信的信息基础设施。
现在术语系统更新技术研究主要围绕在单一术语系统进行,涉及术语、概念、属性和关系更新,相关技术有未登录词识别、术语删除、同义词扩充等。关于集成术语系统的更新,主要集中在:1)新来源词表扩充,将一个新的词表通过格式转换、词汇相似度计算等方式添加到既有集成术语系统中;2)问题修正,通过关系不一致检查发现集成术语系统中隐藏问题并进行校正。现有来源词表的更新还主要依赖人工方式进行,且主要集中在术语和概念层面,对来源词表进行术语、概念增删改操作。但是,依赖人工更新方式,考虑来源词表数量和规模大小,时间和经济成本较高,无法满足效率和效益需要。
发明内容
本申请实施例提供了一种数据处理方法及相关设备,可以实现集成术语系统中新版本来源词表中变化概念的自动更新,提高了集成术语系统版本更新效率,大大节约了时间成本,缩短集成术语系统概念升级与来源词表版本升级之间的时间差。
本申请实施例第一方面提供了一种数据处理方法,应用于集成术语系统,所述集成术语系统包括至少一个来源词表,其特征在于,包括:
将待更新的来源词表进行注册,以得到目标来源词表;
确定所述目标来源词表中的目标词表数据,所述目标词表数据包括已分配标识的术语以及已分配标识的概念;
将所述目标词表数据与第一来源词表的第一词表数据进行匹配,以确定所述目标来源词表相对于所述第一来源词表的目标匹配结果,所述第一来源词表为所述集成术语系统中与所述目标来源词表对应的来源词表;
根据所述目标匹配结果以及预设规则对所述集成术语系统中的词表数据进行更新。
可选地,所述将所述目标词表数据与第一来源词表的第一词表数据进行匹配,以确定所述目标来源词表相对于所述第一来源词表的目标匹配结果,包括:
将目标术语与所述第一词表数据中的术语进行字符串匹配,以得到术语匹配结果,所述术语匹配结果包括:新增术语结果、未变化术语结果和/或删除术语结果,所述目标术语为所述目标词表数据中的任意一个术语;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国医学科学院医学信息研究所,未经中国医学科学院医学信息研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910540408.0/2.html,转载请声明来源钻瓜专利网。