[发明专利]医疗数据结构化处理方法、装置及设备在审
申请号: | 202111098493.3 | 申请日: | 2021-09-18 |
公开(公告)号: | CN113823371A | 公开(公告)日: | 2021-12-21 |
发明(设计)人: | 龚快快;孙铭权;付相钞 | 申请(专利权)人: | 上海保链科技有限公司 |
主分类号: | G16H10/60 | 分类号: | G16H10/60;G06F40/289;G06F40/242;G06F16/835 |
代理公司: | 苏州京昀知识产权代理事务所(普通合伙) 32570 | 代理人: | 段晓玲;顾友 |
地址: | 201802 上海市嘉定区*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 医疗 数据结构 处理 方法 装置 设备 | ||
本发明公开了一种医疗数据结构化处理方法、装置及设备。医疗数据结构化处理方法包括利用预设规则引擎根据对应的预设规则对待处理数据进行解析,获取半结构化的中间数据;利用分词工具基于预先构建的基库对所述半结构化的中间数据进行分词处理,获取分词结果,所述预先构建的基库包括疾病基库、手术基库、药品基库、诊疗基库以及材料基库中的一个或多个;采用预设模型根据与所述分词结果中每一分词对应的标注规则分别对所述每一分词进行序列标注,生成结构化的目标数据。本发明能够减少源代码的修改及生成发布、使分词更加准确并解决OOV问题以及让病历信息格式化。
技术领域
本发明涉及信息处理技术领域,特别是涉及医疗数据结构化处理方法、装置及设备。
背景技术
医院提供的电子病历数据一般都是采用自然语言描述患者的情况,比如主诉是什么症状、既往得过什么疾病,信息量丰富。为了利用信息量丰富的电子病历进行后续规则的编写,通常会希望能够从自然语言中抽取出数字化的信息,比如:将自然语言表达的主诉中的疾病与icd10疾病标准进行对应。
对于自然语言的处理大致分为两类:一是分类,二是结构化预测。结构化预测问题包括将病历结构化,指将医院的电子病历全量信息做集中处理,以得到结构清晰的病历信息,让病历信息格式化,利于查看。如从病历中抽取包含疾病、症状、手术等多种专业属性较强的信息,以及时间、动作、医生姓名等日常用语的信息。
然而在将病历结构化的过程中,通常需要对病历中的数据进行分词处理,但由于病历中的术语书写随意,所以往往会出现词典外的词,这样的词就无法提取,即会出现OOV(Out of Vocabulary)问题。如此,会造成病历结构化过程失败。
因此,如何减少源代码的修改及生成发布、使分词更加准确并解决OOV问题以及让病历信息格式化,是本领域技术人员急需解决的技术问题。
发明内容
本发明提供了一种医疗数据结构化处理方法、装置及设备,能够减少源代码的修改及生成发布、使分词更加准确并解决OOV问题以及让病历信息格式化。
本发明提供了如下方案:
一种医疗数据结构化处理方法,包括:
利用预设规则引擎根据对应的预设规则对待处理数据进行解析,获取半结构化的中间数据;
利用分词工具基于预先构建的基库对所述半结构化的中间数据进行分词处理,获取分词结果,所述预先构建的基库包括疾病基库、手术基库、药品基库、诊疗基库以及材料基库中的一个或多个;
采用预设模型根据与所述分词结果中每一分词对应的标注规则分别对所述每一分词进行序列标注,生成结构化的目标数据。
可选地,所述预设规则引擎包括根据java代码和groovy编写的规则引擎。
可选地,所述利用预设规则引擎根据对应的预设规则对待处理数据进行解析,获取半结构化的中间数据包括:
对所述待处理数据进行预处理;
获取需要解析的字段及字段规则,根据所述字段规则从预处理后的所述待处理数据中获取所述字段对应的值,生成键值对格式的半结构化的中间数据。
可选地,所述预先构建的基库包括多个层级及多类信息。
可选地,所述分词工具包括jieba分词工具。
可选地,所述分词结果包括每一分词对应的词性,所述采用预设模型根据与所述分词结果中每一分词对应的标注规则分别对所述每一分词进行序列标注,生成结构化的目标数据包括:
确定所述分词结果中每一分词对应的标注规则;
根据对应的所述标注规则以及所述词性对每一分词进行序列标注,生成结构化的目标数据。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海保链科技有限公司,未经上海保链科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111098493.3/2.html,转载请声明来源钻瓜专利网。