[发明专利]一种基于数据增强的电子病历命名实体识别方法在审
申请号: | 202111215692.8 | 申请日: | 2021-10-19 |
公开(公告)号: | CN113990421A | 公开(公告)日: | 2022-01-28 |
发明(设计)人: | 马凯;李超凡 | 申请(专利权)人: | 徐州医科大学 |
主分类号: | G16H10/60 | 分类号: | G16H10/60;G06F40/295;G06F40/242;G06F40/289;G06N3/04;G06N3/08 |
代理公司: | 北京淮海知识产权代理事务所(普通合伙) 32205 | 代理人: | 王波 |
地址: | 221000 *** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 数据 增强 电子 病历 命名 实体 识别 方法 | ||
1.一种基于数据增强的电子病历命名实体识别方法,其特征在于,包括以下步骤:
步骤1:获取原始电子病历文本语料,对文本进行预处理,形成原始语料库,对原始语料库进行中文文本分词,形成原始词表;对原始语料库进行切字处理,形成原始字典;
针对原始词表和原始字典,利用词向量工具训练100维向量表示,对于电子病历文本的同一个序列S,在原始词表中表示为Sword=(word1,word2,…,wordn),在原始字典中表示为Schar=(char1,char2,…,charm),对于chari在序列Sword所在的词语wordj或在wordj前后连续的词语中也出现,则chari的字向量ei表示为:
式中:表示chari所在序列Sword中对应词wordj的词向量;
表示chari所在序列Sword中对应词wordj的前面连续k个词均匀出现chari词向量;
表示chari所在序列Sword中对应词wordj的后面连续k个词均匀出现chari词向量;
步骤2:依据步骤1所获得的原始词表、字典以及字典对应的组合字向量E=(e1,e2,…,em)、电子病历文本的同一个序列S,依据BIOES标注策略对原始词典中的词语进行标注,即获得词语中每个字在词语内部位置的标签,以此对原始字典中的字进行编码:
eposition=one-hot(wordi),0≤i≤l;
式中:one-hot编码为50维,词语wordi中含有l个汉字;
步骤3:依据步骤1所获得的原始词表、字典,对于电子病历文本的同一个序列S,依据词性对Sword=(word1,word2,…,wordn)为每个词语标记词性,同时将词性赋值给词语的每个汉字,然后对Schar=(char1,char2,…,charm)每个字的词性进行编码:
eflag=one-hot(wordi),0≤i≤l;
式中:one-hot编码为50维,词语wordi中含有l个汉字;
步骤4:依据步骤1获得的原始字典,提取每个字的偏旁部首,形成字典的偏旁部首映射表,将偏旁部首映射表编码为50维向量,并依据字典中的每个字的偏旁部首进行赋值:
ecnradical=one-hot(Schar);
步骤5:依据步骤1所获得的原始字典,对于电子病历文本的同一个序列Schar=(char1,char2,…,charm),将汉语拼音字母表编码为50维向量,对电子病历文本的同一个序列S每个汉字所出现的拼音字母频数进行编码:
epinyin=one-hot(Schar);
步骤6:依据步骤1-5所述的原始字典和电子病历文本的同一个序列S,结合得到的字向量ei,字位置向量eposition,词性向量eflag,字偏旁部首向量ecnradical,字拼音向量epinyin,则以汉字、字位置、词性、偏旁部首和拼音组成的五元组,实现基于汉字特征的数据增强,命名实体识别模型的字嵌入特征向量矩阵W=(w1,w2,…,wn)表示为:
步骤7:依据步骤6的字嵌入特征向量矩阵W=(w1,w2,…,wn)作为BiLSTM-CRF模型的输入,使用BiLSTM神经网络进行文本特征提取,使用CRF进行解码和实体标签的预测,从而实现基于数据增强的电子病历命名实体识别方法。
2.根据权利要求1所述的一种基于数据增强的电子病历命名实体识别方法,其特征在于,所述步骤1中针对原始电子病历文本的预处理主要包括,去除文本停用字词、标点符号与切分句子。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于徐州医科大学,未经徐州医科大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111215692.8/1.html,转载请声明来源钻瓜专利网。
- 上一篇:带防锁死机构的塑料模具及方法
- 下一篇:一种自调整的抽油杆生产用导轮机构
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置