[发明专利]一种使用Bert做疾病标准化映射分类的方法及系统在审
申请号: | 202010627402.X | 申请日: | 2020-07-02 |
公开(公告)号: | CN111785387A | 公开(公告)日: | 2020-10-16 |
发明(设计)人: | 朱玮;贾磊;汤晋军;吴云;郭强;张文平 | 申请(专利权)人: | 朱玮 |
主分类号: | G16H50/70 | 分类号: | G16H50/70;G06F16/35;G06F40/126;G06F40/284 |
代理公司: | 北京酷爱智慧知识产权代理有限公司 11514 | 代理人: | 向霞 |
地址: | 221000 江苏省徐州*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 使用 bert 疾病 标准化 映射 分类 方法 系统 | ||
1.一种使用Bert做疾病标准化映射分类的方法,其特征在于,所述方法包括:
对获取的原始疾病诊断数据进行标注,并将其映射到预设的疾病标准规范名称和分类上,以形成两个训练数据集;其中,所述原始疾病诊断数据包括疾病诊断名称和编码;
通过Bert对所述两个训练数据集进行学习训练以得到两层训练模型;
通过所述两层训练模型分别对待处理的疾病诊断名称进行处理,以得到中间处理结果;
对所述中间处理结果进行排名处理,以得到最终排列的多个疾病标准名称。
2.根据权利要求1所述的一种使用Bert做疾病标准化映射分类的方法,其特征在于,所述方法还包括:
在学习训练前进行预处理,所述预处理具体包括:
去掉空值;
去掉空格;
去掉停用词;
对于编码与疾病诊断名称位置错乱的,调换编码与疾病诊断名称的位置。
3.根据权利要求1所述的一种使用Bert做疾病标准化映射分类的方法,其特征在于,对获取的原始疾病诊断数据进行标注,并将其映射到预设的疾病标准规范名称和分类上,以形成两个训练数据集,具体包括:
通过病案专家进行标注,将所述疾病诊断名称映射到国家疾病标准名称上,以形成所述疾病诊断名称映射到疾病标准名称的标准疾病名称训练数据集;
再根据所映射的国家疾病标准名称,基于疾病诊断分类与代码为每条原始疾病诊断数据进行标准化分类,以形成所述疾病诊断名称映射到疾病标准分类的标准疾病分类训练数据集。
4.根据权利要求3所述的一种使用Bert做疾病标准化映射分类的方法,其特征在于,通过Bert对所述两个训练数据集进行学习训练以得到两层训练模型,具体包括:
使用Bert针对所述标准疾病名称训练数据集进行学习训练,获得疾病名称模型;
使用Bert针对所述标准疾病分类训练数据集进行学习训练,获得疾病分类模型。
5.根据权利要求4所述的一种使用Bert做疾病标准化映射分类的方法,其特征在于,通过所述两层训练模型分别对待处理的疾病诊断名称进行处理,以得到中间处理结果,具体包括:
通过所述疾病名称模型为待处理的疾病诊断名称进行分类计算,以获得该疾病诊断名称数据所映射的疾病标准名称,并选取概率排名前n个疾病标准名称;
通过所述疾病分类模型为待分类的疾病诊断名称进行分类,以获得该疾病诊断名称数据所映射的疾病标准分类,选取概率排名前m个疾病标准分类;
所述n个疾病标准名称和m个疾病标准分类即为所述中间处理结果。
6.根据权利要求5所述的一种使用Bert做疾病标准化映射分类的方法,其特征在于,对所述中间处理结果进行排名处理,以得到最终排列的多个疾病标准名称,具体包括:
对n个疾病标准名称中的各元素计算其疾病名称权重值;
对m个疾病标准分类中的各元素计算其疾病分类权重值;
再根据所述疾病名称权重值和疾病分类权重值计算n个疾病标准名称中各元素的二次权重,并根据所述二次权重的大小进行排序,以得到所述最终排列。
7.根据权利要求1至6任一所述的一种使用Bert做疾病标准化映射分类的方法,其特征在于,所述方法还包括:
接收并展示所述最终排列的多个疾病标准名称。
8.一种使用Bert做疾病标准化映射分类的系统,其特征在于,所述系统包括:
数据预处理模块,用于对获取的原始疾病诊断数据进行标注,并将其映射到预设的疾病标准规范名称和分类上,以形成两个训练数据集;其中,所述原始疾病诊断数据包括疾病诊断名称和编码;
Bert训练学习模块,用于通过Bert对所述两个训练数据集进行学习训练以得到两层训练模型;
数据分类模块,用于通过所述两层训练模型分别对待处理的疾病诊断名称进行处理,以得到中间处理结果;
分类结果重排模块,用于对所述中间处理结果进行排名处理,以得到最终排列的多个疾病标准名称;
用户界面模块,用于接收并展示所述最终排列的多个疾病标准名称。
9.根据权利要求8所述的一种使用Bert做疾病标准化映射分类的系统,其特征在于,所述数据预处理模块,还用于在学习训练前进行预处理,所述预处理具体包括:
去掉空值;
去掉空格;
去掉停用词;
对于编码与疾病诊断名称位置错乱的,调换编码与疾病诊断名称的位置。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于朱玮,未经朱玮许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010627402.X/1.html,转载请声明来源钻瓜专利网。