[发明专利]用于标准化医疗文本数据的方法、装置、设备及存储介质有效
申请号: | 201911299358.8 | 申请日: | 2019-12-17 |
公开(公告)号: | CN111063446B | 公开(公告)日: | 2023-06-16 |
发明(设计)人: | 柯昆;张黎;康波 | 申请(专利权)人: | 医渡云(北京)技术有限公司 |
主分类号: | G16H50/70 | 分类号: | G16H50/70;G06F16/31;G06F16/33;G06F16/35 |
代理公司: | 北京律智知识产权代理有限公司 11438 | 代理人: | 袁礼君;孙宝海 |
地址: | 100191 北京市海*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 用于 标准化 医疗 文本 数据 方法 装置 设备 存储 介质 | ||
本公开提供了一种用于标准化医疗文本数据的方法、装置、设备及存储介质。该方法包括:获取待标准化的医疗文本数据;基于预先建立的属性词词库,对医疗文本数据进行切词;基于医疗文本数据的切词结果,生成与医疗文本数据对应的第一结构化数据;基于第一结构化数据中的属性词,在预先建立的结构化标注数据索引中查找与第一结构化数据匹配的至少一个结构化标注数据;分别确定至少一个结构化标注数据的分级信息;以及基于分级信息,从至少一个结构化标注数据中,筛选出结构化标注数据,作为医疗文本数据的标准化数据。该方法可以将医疗文本数据转化为标准化数据,进而可以将其映射到相应的医学标准表体系中。
背景技术
医疗原始数据通常来源于无规范的临床书写,很难将其映射到相应医学标准表体系中,如ICD10(International Classification of Diseases,国际疾病分类)标准表、MedDRA(Medical Dictionary for Regulatory Activities,监管活动医学词典)标准表等。
为了将其映射到相应标准表体系中,以用于后续诸如大数据挖掘等操作,需要将原始的医疗文本数据进行标准化处理,从而便于将其映射到相应标准表体系中。
需要说明的是,在上述背景技术部分公开的信息仅用于加强对本公开的背景的理解,因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。
发明内容
有鉴于此,本公开提供一种用于标准化医疗文本数据的方法、装置、设备及存储介质。
本公开的其他特性和优点将通过下面的详细描述变得显然,或部分地通过本公开的实践而习得。
根据本公开的一个方面,提供一种用于标准化医疗文本数据的方法,包括:获取待标准化的医疗文本数据;基于预先建立的属性词词库,通过切词模型,对所述医疗文本数据进行切词;基于所述医疗文本数据的切词结果,对所述医疗文本数据进行结构化处理,生成与所述医疗文本数据对应的第一结构化数据;基于所述第一结构化数据中的属性词,在预先建立的结构化标注数据索引中查找与所述第一结构化数据匹配的至少一个结构化标注数据;分别确定所述至少一个结构化标注数据的分级信息;以及基于所述分级信息,从所述至少一个结构化标注数据中,筛选出结构化标注数据,作为所述医疗文本数据的标准化数据;其中,所述第一结构化数据包含所述属性词词库中的属性词;其中,所述属性词词库中的属性词包含医学标准词。
在本公开一个实施例中,所述方法还包括:基于所述属性词词库,通过所述切词模型,对预先获取的标注数据进行切词;基于所述标注数据的切词结果,对所述标注数据进行结构化处理,生成与所述标注数据对应的结构化标注数据;以及基于所述结构化标注数据,建立所述结构化标注数据索引;其中,所述结构化标注数据包含所述属性词词库中的属性词,且所述结构化标注数据包含至少一个结构体数据。
在本公开一个实施例中,分别确定所述至少一个结构化标注数据的分级信息包括:基于与所述第一结构化数据的结构化匹配度,分别确定所述至少一个结构化标注数据的第一分数;基于与所述第一结构化数据中各属性词的文本相似程度,分别确定所述至少一个结构化标注数据的第二分数;以及分别根据所述第一分数、所述第二分数,确定所述至少一个结构化标注数据的分级信息。
在本公开一个实施例中,基于所述分级信息,从所述至少一个结构化标注数据中,筛选出结构化标注数据,作为所述医疗文本数据的标准化数据包括:去除所述至少一个结构化标注数据中重复的结构化标注数据;基于预设的条件,对去除了重复的结构化标注数据进行筛选;去除筛选出的结构化标注数据中重复的医学标准词;以及以去除了重复的医学标准词的结果,作为所述医疗文本数据的标准化数据输出;其中,所述条件是基于各结构化标注数据的分级信息和/或各结构化标注数据中包含的医学标准词的个数建立的。
在本公开一个实施例中,所述结构化匹配度基于各属性类型的权重比例确定。
在本公开一个实施例中,所述文本相似程度基于余弦相似度算法确定或者基于相似性度量方式确定。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于医渡云(北京)技术有限公司,未经医渡云(北京)技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911299358.8/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种新型电子式挡风头盔
- 下一篇:一种海洋渔业拖网用编织绳索