[发明专利]一种医疗命名实体识别的方法、装置及存储介质有效
申请号: | 202110894039.2 | 申请日: | 2021-08-05 |
公开(公告)号: | CN113392633B | 公开(公告)日: | 2021-12-24 |
发明(设计)人: | 赵韡;袁靖;刁晓林;廉晓丹;张飞 | 申请(专利权)人: | 中国医学科学院阜外医院 |
主分类号: | G06F40/216 | 分类号: | G06F40/216;G06F40/295;G06F16/33;G06F16/35;G06N20/00 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 100037 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 医疗 命名 实体 识别 方法 装置 存储 介质 | ||
本申请公开了一种医疗命名实体识别的方法、装置及存储介质,包括:利用基于字典的标注方法进行标注,作为第一标注结果;利用基于人工的标注方法进行标注,作为第二标注结果;利用NER机器学习模型的标注方法进行标注,作为第三标注结果;将第一标注结果、第二标注结果和第三标注结果进行融合,作为第四标注结果;根据第四标注结果更新NER机器学习模型的参数,并进行迭代,获得训练后的NER机器学习模型;将待识别的医疗文本输入训练后的NER机器学习模型获得输出的医疗命名实体。应用本申请方案,由于采用三种标注方法,将三种标注结果进行融合,使得训练后的NER机器学习模型提高了对医疗文本命名实体识别的准确率。
技术领域
本申请涉及计算机应用技术领域,尤其涉及一种医疗命名实体识别的方法,一种医疗命名实体识别的装置,一种电子设备和一种计算机可读存储介质。
背景技术
在计算机技术和互联网技术的发展下,医疗文档逐步实现了电子化,而疾病诊断、查阅病历、健康咨询、医疗教学等都需要对电子文档中识别出与医疗相关的命名实体。命名实体识别(NER,Named Entity Recognition)就是一种从文本中识别出与指定信息相关的命名实体的技术。其中,与医疗相关的命名实体可以是疾病名称、治疗手段、药品名称等等。现有的医疗命名实体识别的技术由于手段单一,其识别的准确率有待提高。
发明内容
针对上述现有技术,本发明实施例公开一种医疗命名实体识别的方法,可以克服医疗命名实体识别技术手段单一,识别的准确率低的缺陷,达到提高识别准确率的目的。
鉴于此,本申请实施例提出一种医疗命名实体识别的方法,该方法包括:
利用基于字典的标注方法对参与训练的医疗文本进行医疗命名实体的标注,将标注结果作为第一标注结果;
利用基于人工的标注方法对所述参与训练的医疗文本进行医疗命名实体的标注,将标注结果作为第二标注结果;
利用命名实体识别NER机器学习模型的标注方法对所述参与训练的医疗文本进行医疗命名实体的标注,将标注结果作为第三标注结果;
将所述第一标注结果、所述第二标注结果和所述第三标注结果进行融合,将融合生成的标注结果作为第四标注结果;
根据所述第四标注结果更新所述NER机器学习模型的参数,并返回到所述利用NER机器学习模型对所述参与训练的医疗文本进行医疗命名实体的标注的步骤进行迭代,直到迭代生成的所述第四标注结果符合预设阈值,获得训练后的NER机器学习模型;
将待识别的医疗文本输入所述训练后的NER机器学习模型,获得输出的医疗命名实体。
进一步地,
所述将第一标注结果、所述第二标注结果和所述第三标注结果进行融合,将融合生成的标注结果作为第四标注结果的步骤包括:
将所述第一标注结果、所述第二标注结果、所述第三标注结果分别用二进制方式表示,1表示对应字符属于所述医疗命名实体,0表示对应字符不属于所述医疗命令实体;
将用二进制方式表示的所述第一标注结果、所述第二标注结果和所述第三标注结果进行或运算,将连续为1的字符段作为待定标注结果;
根据待定标注结果判断标注是否唯一,如果唯一,则将所述待定标注结果作为所述第四标注结果;如果不唯一,则根据词频统计结果以及事先为每一种标注方法设置的权重确定最终标注结果,将最终标注结果作为所述第四标注结果。
进一步地,
所述根据词频统计结果和事先为每一种标注方法设置的权重确定最终标注结果,将最终标注结果作为所述第四标注结果的步骤包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国医学科学院阜外医院,未经中国医学科学院阜外医院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110894039.2/2.html,转载请声明来源钻瓜专利网。