[发明专利]基于改进图注意力网络的中文医疗命名实体识别方法在审
申请号: | 202211673052.6 | 申请日: | 2022-12-26 |
公开(公告)号: | CN115879473A | 公开(公告)日: | 2023-03-31 |
发明(设计)人: | 马甲林;杨宇;韩庆宾;张正伟;张琳;张粤 | 申请(专利权)人: | 淮阴工学院 |
主分类号: | G06F40/295 | 分类号: | G06F40/295;G06F40/242;G06F40/30;G06F40/284;G06F18/25;G06N3/0455;G06N3/047;G06N3/048;G06N3/0499;G06N3/082 |
代理公司: | 淮安市科文知识产权事务所 32223 | 代理人: | 吴晶晶 |
地址: | 223400 江苏省淮*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 改进 注意力 网络 中文 医疗 命名 实体 识别 方法 | ||
1.一种基于改进图注意力网络的中文医疗命名实体识别方法,其特征在于,包括如下步骤:
步骤1:输入原始的医疗领域中文文本数据S,对数据S进行清洗后,得到医疗文本数据s,构建医疗词典D,利用医疗词典D与医疗文本数据s中的字符进行匹配,得到对应的匹配词序列W,通过查找预训练字嵌入矩阵与预训练词嵌入矩阵,将医疗文本数据s与匹配词序列W分别映射为对应的字嵌入序列C与词嵌入序列E;
步骤2:构建修正位置编码的Transformer编码器模型,将字嵌入序列C作为模型的输入,输出上下文语义嵌入序列N,随后将其与词嵌入序列E进行向量拼接,得到特征拼接序列Nodef;
步骤3:构建改进协同图网络模型,将以特征拼接序列Nodef为节点所构成的医疗文本关系图作为模型的输入,经过改进协同图网络模型的图注意力网络计算,输出最终的特征融合序列Q,所述改进协同图网络模型,在原协同图网络模型的基础上通过改进其关系图设计方式,融合其设计的多种字词交互网络结构,依据医疗文本中所存在的“字-词”邻接与包含关系、“字-字”邻接关系以及“词-词”邻接关系来连接对应的节点,实现一种文本整体关系图的构建;
步骤4:构建条件随机场模型,基于特征融合序列Q对医疗文本中的字符进行标签解码,输出最优的标签序列,获得最终的医疗文本的医疗命名实体识别结果。
2.根据权利要求1所述的基于改进图注意力网络的中文医疗命名实体识别方法,其特征在于,所述步骤1的具体方法为:
步骤1.1:定义S为待清洗的原始医疗领域中文文本数据,对S进行去标点符号和去空操作,得到清洗后的医疗文本数据s=(c1,c2,....,cn),其中ci表示第i个字符;
步骤1.2:构建医疗词典D,包括疾病、药物、身体器官、诊疗手段在内的临床医疗实体类别,利用医疗词典D与医疗文本数据s中的字符进行匹配,得到对应的匹配词序列W=(w1,w2,....,wm),其中,wj表示第j个匹配词,匹配词表示包含该字符的词汇;
步骤1.3:通过查找预训练字嵌入矩阵,将医疗文本数据s=(c1,c2,....,cn)中的每个字符映射为字嵌入向量,得到对应的字嵌入序列C=(x1,x2,....,xn),其计算方法为xi=ec(ci),其中,xi表示第i个字符的向量表示,ec字嵌入查找表;
步骤1.4:通过查找预训练词嵌入矩阵,将匹配词序列W=(w1,w2,....,wm)中的每个匹配词映射为词嵌入向量,得到对应的词嵌入序列E=(z1,z2,....,zm),其计算方法为zj=ew(wj),其中,zj表示第j个匹配词的向量表示,ew词嵌入查找表。
3.根据权利要求1所述的基于改进图注意力网络的中文医疗命名实体识别方法,其特征在于,所述步骤2中修正位置编码的Transformer编码器模型具体为:
在位置编码中添加了相对位置和方向信息,其编码方法为:
其中,t为目标索引,j为上下文标记索引,Rt-j为相对位置编码,dk为k的向量维度。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于淮阴工学院,未经淮阴工学院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211673052.6/1.html,转载请声明来源钻瓜专利网。
- 上一篇:灯光控制方法、装置、电子设备及存储介质
- 下一篇:一种手动研磨保护装置