[发明专利]医疗数据处理方法及装置、存储介质、电子设备在审
申请号: | 201910736586.0 | 申请日: | 2019-08-09 |
公开(公告)号: | CN112347776A | 公开(公告)日: | 2021-02-09 |
发明(设计)人: | 焦增涛 | 申请(专利权)人: | 金色熊猫有限公司 |
主分类号: | G06F40/289 | 分类号: | G06F40/289;G06F40/295;G06F40/30;G06N3/04;G06N3/08;G06F16/2458;G06F16/28 |
代理公司: | 隆天知识产权代理有限公司 72003 | 代理人: | 郑特强;章侃铱 |
地址: | 中国香港铜锣湾希慎*** | 国省代码: | 香港;81 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 医疗 数据处理 方法 装置 存储 介质 电子设备 | ||
本发明实施例是关于一种医疗数据处理方法及装置、存储介质、电子设备,涉及电子病历文本分析技术领域,该方法包括:利用预设规则对待处理医疗数据进行处理,得到多个候选医疗词;将各所述候选医疗词输入至分类模型中得到多个输出结果;其中,所述分类模型是通过多个词向量对连体神经网络进行训练得到的;根据所述输出结果的置信度判断各所述候选医疗词是否属于目标医疗词。本发明实施例降低了目标医疗词的识别成本。
技术领域
本发明实施例涉及电子病历文本分析技术领域,具体而言,涉及一种医疗数据处理方法、医疗数据处理装置、计算机可读存储介质以及电子设备。
背景技术
医疗术语识别是临床电子病历分析的第一步,不管是信息抽取,还是各种分类预测任务,医疗数据都是重要的文本特征。
在现有的医疗术语识别方法中,大多数是通过人工收集大量医学数据构成词表,然后再通过词表进行匹配识别。但是,人工收集词表成本高,并且词表闭集,除了词表之外的词无法识别,使得识别结果的准确率较低。
因此,需要提供一种新的医疗数据处理方法及装置。
需要说明的是,在上述背景技术部分发明的信息仅用于加强对本发明的背景的理解,因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。
发明内容
本发明的目的在于提供一种医疗数据处理方法、医疗数据处理装置、计算机可读存储介质以及电子设备,进而至少在一定程度上克服由于相关技术的限制和缺陷而导致的识别结果准确率较低的问题。
根据本公开的一个方面,提供一种医疗数据处理方法,包括:
利用预设规则对待处理医疗数据进行处理,得到多个候选医疗词;
将各所述候选医疗词输入至分类模型中得到多个输出结果;其中,所述分类模型是通过多个词向量对连体神经网络进行训练得到的;
根据所述输出结果的置信度判断各所述候选医疗词是否属于目标医疗词。
在本公开的一种示例性实施例中,所述医疗数据处理方法还包括:
对历史医疗数据进行分词得到多个分词结果;
对各所述分词结果进行处理得到多个第一词向量,并利用所述多个第一词向量对连体神经网络进行训练得到所述分类模型。
在本公开的一种示例性实施例中,利用所述多个词向量对连体神经网络进行训练得到分类模型包括:
对各所述第一词向量进行切分得到第二词向量,并将所述第二词向量作为所述连体神经网络的第一输入;
将与所述第二词向量具有相同类别的现有词向量的平均值作为所述连体神经网络的第二输入;
基于所述第一输入以及第二输入对所述连体神经网络进行训练得到所述分类模型。
在本公开的一种示例性实施例中,所述医疗数据处理方法还包括:
根据所述第一词向量构建正样本集以及负样本集;
其中,在所述正样本集中,所述第一输入中的第二词向量的类别属于所述第二输入中的所述现有词向量的平均值的类别;
在所述负样本集中,所述第一输入中的第二词向量的类别不属于所述第二输入中的所述现有词向量的平均值的类别。
在本公开的一种示例性实施例中,所述正样本集对应的输出结果为1;所述负样本集对应的输出结果为0。
在本公开的一种示例性实施例中,利用预设规则对待处理医疗数据进行处理,得到多个候选医疗词包括:
依次利用不同预设长度的截取规则对所述待处理医疗数据进行截取得到多个截取结果;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于金色熊猫有限公司,未经金色熊猫有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910736586.0/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种预编码码本选择的方法及装置
- 下一篇:一种方便更换的新能源汽车阅读灯