[发明专利]基于词汇增强的医学实体抽取方法、装置、设备及介质在审
申请号: | 202111016541.X | 申请日: | 2021-08-31 |
公开(公告)号: | CN113657105A | 公开(公告)日: | 2021-11-16 |
发明(设计)人: | 刘舒萍 | 申请(专利权)人: | 平安医疗健康管理股份有限公司 |
主分类号: | G06F40/279 | 分类号: | G06F40/279;G06F40/284;G06F16/27;G06N3/04;G06N3/08 |
代理公司: | 深圳市世联合知识产权代理有限公司 44385 | 代理人: | 汪琳琳 |
地址: | 200001 上海市黄浦*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 词汇 增强 医学 实体 抽取 方法 装置 设备 介质 | ||
本申请实施例属于人工智能领域,应用于智慧医疗领域中,涉及一种基于词汇增强的医学实体抽取方法,包括对训练语料数据进行多粒度分词处理,将分词依次输入词向量模得到初始词向量,根据构建的字查询字典标注训练语料数据得到标注语料,利用拼接标注语料与初始词向量得到的增强词向量训练初始医学实体抽取模型,得到中间医学实体抽取模型,评估中间医学实体抽取模型,根据评估结果确定最终的医学实体抽取模型,将测试语料数据输入医学实体抽取模型中,得到医学实体抽取结果。本申请还提供一种基于词汇增强的医学实体抽取装置、设备及介质。此外,本申请还涉及区块链技术,字查询字典可存储于区块链中。本申请提高医学实体识别抽取的准确率。
技术领域
本申请涉及人工智能技术领域和数字医疗技术领域,尤其涉及一种基于词汇增强的医学实体抽取方法、装置、设备及介质。
背景技术
随着医疗产品的发展,人们对于医保的需求也随之增多,伴随而来的,则是产生大量的骗保行为。国家医疗保障局对于骗保行为要求医保局加大打击力度,巩固高压态势。医保部门通过智能手段,针对不同场景进行查处,这需要从大数据的角度建立不同维度的指标体系,精准定位风险。建立完整的指标体系,需要从数据上分析不同场景特征,敏感数据变化,进而识别风险。
但是,随着医疗信息技术的发展,爆炸式涌现出大量的生物医学数据,建立医疗标准数据体系需要针对复杂数据抽取实体特征,而用到的NER(Named Entity Recognition,命名实体识别)技术,通常基于字符的NER要好于基于词汇的方法,但基于字符的NER没有利用词汇信息,而词汇边界对于实体边界起着至关重要的作用,导致命名实体识别准确低。此外,使用BERT模型进行命名实体识别,模型参数较多,线上部署困难,不便于操作。
发明内容
本申请实施例的目的在于提出一种基于词汇增强的医学实体抽取方法、装置、设备及介质,以解决相关技术中实体识别抽取准确率低,线上部署困难,无法满足线上性能的技术问题。
为了解决上述技术问题,本申请实施例提供一种基于词汇增强的医学实体抽取方法,采用了如下所述的技术方案:
获取医学领域的训练语料数据,对所述训练语料数据进行多粒度分词处理,获得分词结果;
按照所述分词结果将分词依次输入词向量模型进行训练,生成与每个所述分词对应的初始词向量;
构建字查询字典,根据所述字查询字典对所述训练语料数据进行标注,得到标注语料;
将所述标注语料与所述初始词向量拼接得到增强词向量,并利用所述增强词向量训练预构建的初始医学实体抽取模型,得到中间医学实体抽取模型;
将验证语料数据输入所述中间医学实体抽取模型中进行模型评估,得到评估结果;
确定所述评估结果是否满足预设条件,若所述评估结果不满足预设条件,则对所述初始医学实体抽取模型进行迭代更新,直到所述评估结果满足预设条件,输出最终的医学实体抽取模型;
将测试语料数据输入所述医学实体抽取模型中,得到医学实体的最优标注序列作为实体抽取结果。
进一步的,所述按照所述分词结果将全部分词输入词向量模型进行训练,生成与每个所述分词对应的初始词向量包括:
将全部分词输入至词向量模型,使用Word2Vec算法将每个所述分词包含的上下文信息转换为词向量,得到与每个所述分词对应的初始词向量。
进一步的,所述将全部分词输入至词向量模型,使用Word2Vec算法将每个所述分词包含的上下文信息转换为词向量,得到与每个所述分词对应的初始词向量包括:
将每个所述分词进行编码处理转换为词汇表向量;
将所述词汇表向量输入到所述词向量模型的Skip-gram层中,根据每个所述分词的上下文信息得到词向量映射表;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于平安医疗健康管理股份有限公司,未经平安医疗健康管理股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111016541.X/2.html,转载请声明来源钻瓜专利网。