[发明专利]一种医学实体词的识别方法和装置有效
申请号: | 202110841311.0 | 申请日: | 2021-07-26 |
公开(公告)号: | CN113297852B | 公开(公告)日: | 2021-11-12 |
发明(设计)人: | 全福亮;李丽;张奇 | 申请(专利权)人: | 北京惠每云科技有限公司 |
主分类号: | G06F40/295 | 分类号: | G06F40/295;G06F16/31 |
代理公司: | 北京超凡宏宇专利代理事务所(特殊普通合伙) 11463 | 代理人: | 毕翔宇 |
地址: | 100191 北京市海淀区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 医学 实体词 识别 方法 装置 | ||
本申请涉及自然语言处理技术领域,尤其涉及一种医学实体词的识别方法和装置。该识别方法包括:构建用于表征医学实体词与自编码向量之间对应关系的预训练模型;利用二分类模型针对所构建的预训练模型的输出结果进行识别,并基于识别结果对预训练模型进行微调,以生成标准词自编码模型;提取目标病例文本中的目标医学实体词的内容特征;将内容特征输入标准词自编码模型,获得目标医学实体词对应的第一自编码向量;从医学标准词编码索引库中查找与第一自编码向量对应的医学标准词,将医学标准词作为目标医学实体词对应的目标医学标准词。通过上述方式,能够便于医学信息共享,提高医疗领域之间交流的效率。
技术领域
本申请涉及自然语言处理技术领域,尤其涉及一种医学实体词的识别方法和装置。
背景技术
临床医学术语的标准化是医疗信息共享的基础,更是医保实现全国统筹的重中之重。各类医学术语来源众多,书写各异,同一个词在不同的时间和场合下有着不同的含义,同一个概念在不同的体系中有着不同的表述方式。
当前国内医疗领域内的术语编码体系较为繁杂,同一类医学术语往往存在多个版本的编码体系,如疾病编码有五个版本:国家卫健委统计信息中心发布的“国标版”,医政医管局发布的“临床版”,以及北京、上海、广东发布的三个地方版。这些因素给医学信息的共享以及医疗领域的交流与合作带来了障碍。因此,现有系统中的标准名或者口语化或者书写文书的医学名词转换成一个标准的体系非常重要。
现有的标准化技术主要有两种:一种是通过人工标记的关键字来构建映射表,实现从文本中提取的命名实体组合到医疗标准名的映射,这种方式虽然已有标注的准确率高,但是灵活性较低,对新的书写方式下需要映射的名称召回不高;
另一种是基于分类算法的,通过距离计算、杰卡德系数等获取标准词映射候选集,通过分类模型来筛选出候选中最合适的结果,这种方式需要每个备选都通过模型判断是否满足映射条件,时耗较长,效率较低,而且备选生成的流程不一定可以选出最佳备选,后面模型的步骤最终一定无法给出最优映射。
发明内容
有鉴于此,本申请实施例至少提供一种医学实体词的识别方法和装置,以克服现有技术中所存在的至少一种缺陷。
本申请主要包括以下几个方面:
第一方面,本申请实施例提供一种医学实体词的识别方法,包括:
构建用于表征医学实体词与自编码向量之间对应关系的预训练模型;
利用二分类模型针对所构建的预训练模型的输出结果进行识别,并基于识别结果对预训练模型进行微调,以生成标准词自编码模型;
提取目标病例文本中的目标医学实体词的内容特征;
将内容特征输入标准词自编码模型,获得目标医学实体词对应的第一自编码向量;
从医学标准词编码索引库中查找与第一自编码向量对应的医学标准词,将医学标准词作为目标医学实体词对应的目标医学标准词。
在一种可能的实施方式中,二分类模型是利用正训练样本和负训练样本训练得到的,其中,正训练样本可通过以下方式获得:从医学标准词库中查找与病历文本中的医学实体词的医学意义相同的第一医学标准词;建立病例文本中的医学实体词与第一医学标准词之间的第一映射关系,以生成标准数据对;基于标准数据对形成正训练样本;其中,负训练样本可通过以下方式获得:从医学标准词库中查找与病历文本中的医学实体词的医学意义相近但词意不同的第二医学标准词;建立病例文本中的医学实体词与第二医学标准词之间的第二映射关系,以生成标记数据对;基于标记数据对形成负训练样本。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京惠每云科技有限公司,未经北京惠每云科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110841311.0/2.html,转载请声明来源钻瓜专利网。