[发明专利]基于改进图注意力网络的中文医疗命名实体识别方法在审

专利信息
申请号: 202211673052.6 申请日: 2022-12-26
公开(公告)号: CN115879473A 公开(公告)日: 2023-03-31
发明(设计)人: 马甲林;杨宇;韩庆宾;张正伟;张琳;张粤 申请(专利权)人: 淮阴工学院
主分类号: G06F40/295 分类号: G06F40/295;G06F40/242;G06F40/30;G06F40/284;G06F18/25;G06N3/0455;G06N3/047;G06N3/048;G06N3/0499;G06N3/082
代理公司: 淮安市科文知识产权事务所 32223 代理人: 吴晶晶
地址: 223400 江苏省淮*** 国省代码: 江苏;32
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 基于 改进 注意力 网络 中文 医疗 命名 实体 识别 方法
【说明书】:

发明公开了一种基于改进图注意力网络的中文医疗命名实体识别方法:对于输入的医疗文本数据,使用医疗词典匹配文本中的字符,获得对应的匹配词序列,通过查找预训练矩阵,将文本与匹配词序列分别映射为字嵌入序列与词嵌入序列;将字嵌入序列作为修正位置编码的Transformer编码器输入,输出上下文语义嵌入序列,并将其与词嵌入序列进行向量拼接;改进协同图网络模型接收以特征拼接序列为节点所构成的文本关系图,输出最终的特征融合序列;将特征融合序列输入至条件随机场模型进行标签解码,得到医疗文本的医疗命名实体识别结果。本发明使用Transformer编码器捕获上下文语义特征,并通过改进图注意力网络提取、融合字词特征,有效提升中文医疗命名实体识别的准确性。

技术领域

本发明属于中文医疗命名实体识别技术领域,特别涉及一种基于改进图注意力网络的中文医疗命名实体识别方法。

背景技术

医疗领域命名实体识别任务旨在识别医疗领域特有医疗实体,针对医疗领域中文文本数据,需要识别包括药品、身体器官、疾病、诊疗手段等在内的临床医疗实体类型。伴随着我国医疗数字化程度的不断提升,为了能够充分挖掘医疗领域文本资料中丰富的实体资源,通过中文医疗命名实体识别技术精确识别电子病历中蕴含的丰富医疗实体信息,已经成为推动个性化医疗服务体系建设和提供临床辅助决策支持的重要基础,对于医疗领域的专业研究有重要的意义。

区别于通用领域,面向医疗领域的命名实体识别任务需以更为系统且复杂的医疗领域专业知识作为依据,领域内命名实体数量庞大且构词复杂,在包含大量未登录词汇的同时还存在着实体之间互相嵌套包含的情况,同时,中文并没有显性的分词符号,传统的中文分词技术很难实现准确的实体边界划分,致使后续的实体类别预测出现错误。

发明内容

发明目的:针对上述问题,本发明提供一种基于改进图注意力网络的中文医疗命名实体识别方法,使用Transformer编码器捕获上下文语义特征,并通过改进图注意力网络提取、融合字词特征,有效的提升中文医疗命名实体识别的准确性。

技术方案:本发明提出一种基于改进图注意力网络的中文医疗命名实体识别方法,包括如下步骤:

步骤1:输入原始的医疗领域中文文本数据S,对数据S进行清洗后,得到医疗文本数据s,构建医疗词典D,利用医疗词典D与医疗文本数据s中的字符进行匹配,得到对应的匹配词序列W,通过查找预训练字嵌入矩阵与预训练词嵌入矩阵,将医疗文本数据s与匹配词序列W分别映射为对应的字嵌入序列C与词嵌入序列E;

步骤2:构建修正位置编码的Transformer编码器模型,将字嵌入序列C作为模型的输入,输出上下文语义嵌入序列N,随后将其与词嵌入序列进行向量拼接,得到特征拼接序列Nodef

步骤3:构建改进协同图网络模型,将以特征拼接序列Nodef为节点所构成的医疗文本关系图作为模型的输入,经过改进协同图网络模型的图注意力网络计算,输出最终的特征融合序列Q,所述改进协同图网络模型,在原协同图网络模型的基础上通过改进其关系图设计方式,融合其设计的多种字词交互网络结构,依据医疗文本中所存在的“字-词”邻接与包含关系、“字-字”邻接关系以及“词-词”邻接关系来连接对应的节点,实现一种文本整体关系图的构建;

步骤4:构建条件随机场模型,基于特征融合序列Q对医疗文本中的字符进行标签解码,输出最优的标签序列,获得最终的医疗文本的医疗命名实体识别结果。

进一步地,所述步骤1的具体方法为:

步骤1.1:定义S为待清洗的原始医疗领域中文文本数据,对S进行去标点符号和去空操作,得到清洗后的医疗文本数据s=(c1,c2,....,cn),其中ci表示第i个字符;

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于淮阴工学院,未经淮阴工学院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202211673052.6/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top