[发明专利]一种基于多粒度文本嵌入的医学实体识别方法有效
申请号: | 202110890112.9 | 申请日: | 2021-08-04 |
公开(公告)号: | CN113779993B | 公开(公告)日: | 2023-02-28 |
发明(设计)人: | 道捷;张春霞;彭成;薛晓军;王瞳;徐天祥;郭贵锁 | 申请(专利权)人: | 北京理工大学 |
主分类号: | G06F40/295 | 分类号: | G06F40/295;G06F40/289;G06F40/242;G06F16/35;G06N3/042 |
代理公司: | 北京正阳理工知识产权代理事务所(普通合伙) 11639 | 代理人: | 张利萍 |
地址: | 100081 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 粒度 文本 嵌入 医学 实体 识别 方法 | ||
1.一种基于多粒度文本嵌入的医学实体识别方法,其特征在于:包括以下步骤:
步骤1:通过预训练语言模型构建多粒度文本嵌入,包括如下步骤:
步骤1.1:对于非结构化的中文医学文本,构建多粒度文本嵌入;
步骤1.1.1:利用预训练语言模型MC-Bert进行符号嵌入、分割嵌入和遮盖嵌入的学习,生成非结构化的中文医学文本的字符嵌入;
对于非结构化的中文医学文本,预训练语言模型MC-Bert的输入由三种嵌入组成,分别是符号嵌入、分割嵌入和遮盖嵌入;
步骤1.1.2:生成中文医学文本的词嵌入、词性嵌入以及短语嵌入;
首先,对于中文医学文本,使用jieba分词工具获得中文医学文本的词语,利用词性标注器Stanford postagger获得中文医学文本的词语的词性标记,利用句法分析器Stanfordparser获得中文医学文本的短语标记;
然后,利用word2vec工具生成词嵌入、词性嵌入以及短语嵌入;
步骤1.1.3:对于非结构化的中文医学文本,利用word2vec工具生成子串嵌入,具体为:
首先,采集医学术语词典,构建医学术语子串集合,具体为:对于任意两个术语,提取两个术语的最长公共子串,添加到医学术语子串集合;若两个术语有多个相同长度的最长公共子串,则取第一个最长公共子串,添加到医学术语子串集合;
其次,对医学术语子串集合中的子串,利用word2vec工具生成所有子串的嵌入表示;
步骤1.1.4:将中文医学文本的字符嵌入、词嵌入、词性嵌入、短语嵌入以及子串嵌入进行拼接,构建多粒度文本嵌入;
步骤1.2:对于非结构化的英文医学文本,构建多粒度文本嵌入,包括以下步骤:
步骤1.2.1:利用预训练语言模型BioBert进行符号嵌入、分割嵌入和遮盖嵌入的学习,生成非结构化的英文医学文本的单词嵌入;
BioBert是根据英文医学数据训练生成的预训练模型;
步骤1.2.2:生成英文医学文本的字符嵌入、词性嵌入以及短语嵌入;
对于英文医学文本,利用word2vec工具生成字符嵌入、词性嵌入、短语嵌入;
步骤1.2.3:对于非结构化的英文医学文本,利用word2vec工具生成子串嵌入;
首先,采集英文医学术语词典,构建医学术语子串集合;对于任意两个术语,提取两个术语的最长公共子串,添加到医学术语子串集合;若两个术语有多个相同长度的最长公共子串,则取第一个最长公共子串,添加到医学术语子串集合;
其次,利用word2vec工具生成所有子串的嵌入表示;
然后,对于英文文句子ES,ES=(ew1,ew2,...,ewn),ew1,ew2,...,ewn为单词,对于每个单词ewi(i=1,2,...,n),判断单词ewi是否包含医学术语子串集合中的子串;设单词ewi包含医学术语子串集合中的子串esubs1,esubs2,...,esubsq,子串esubs1,esubs2,...,esubsq的嵌入表示为ees1,ees2,....,eesq,则单词ewi的子串嵌入表示eessi为:对ees1,ees2,....,eesq相加求和,然后除以子串个数q的结果;若单词ewi不包含医学术语子串集合中的任何子串,则输出为自定义值;
最后,对于句子ES中的每个单词ewi(i=1,2,...,n),按照以上步骤生成其对应的子串嵌入;句子ES的子串嵌入为Eess=(eess1,eess2,....,eessn);
步骤1.2.4:将英文医学文本的字符嵌入、词嵌入、词性嵌入、短语嵌入以及子串嵌入进行拼接,构建多粒度文本嵌入;
步骤2:根据医学实体构成模式,生成中文句子中所有字符的模式权重,包括如下步骤:
步骤2.1:构建中文医学实体构成模式;
医学实体构成模式的构成形式为:“Y1+Y2+Y3+...+Yk”;
其中,Y1,Y2,Y3,...,Yk表示词语的类别,“+”表示字符串的链接操作;
词语的类别包括否定词、临床表现、解剖部位、修饰词、疾病名称、体格检查、数值、量词以及药品;
步骤2.2:生成中文句子中字符的模式权重;
步骤3:使用图注意力网络和模式强化注意力机制,进行结点嵌入表示学习,包括如下步骤:
步骤3.1利用全连接层对中文字符结点、或英文单词结点的嵌入维度进行变换;
对于中文句子CS中每个字符的多粒度文本嵌入,输入至全连接层,对中文多粒度文本嵌入的嵌入维度进行转换;转换维度的原因是:多粒度文本嵌入维度需与步骤3.2中使用的图注意力网络的结点向量输入维度一致;
同理,对于英文句子ES中每个单词的多粒度文本嵌入,输入至全连接层,对英文多粒度文本嵌入的嵌入维度进行转换;
在全连接层中,首先,经过线性层转换维度;然后,利用dropout方法防止过拟合;最后,通过激活函数Relu防止梯度消失;
步骤3.2:对于中文医学文本,利用中文句子中字符的模式权重,将图注意力网络的中文字符结点的注意力权重与模式权重相乘;对于英文医学文本,图注意力网络中英文单词结点的模式权重设为1;
对于中文医学文本,图注意力网络的结点嵌入为字符的嵌入,字符嵌入为步骤3.1生成的字符嵌入;对于英文医学文本,图注意力网络的结点嵌入为单词的嵌入,单词嵌入为步骤3.1生成的单词嵌入;
步骤3.2.1:计算图注意力网络中结点的注意力权重;
步骤3.2.2:更新图注意力网络中结点的注意力权重;
步骤4:采用条件随机场生成医学文本的实体类别标签,输出医学实体识别结果,具体为:生成中文字符或英文单词的实体类别标签;
其中,基于条件随机场计算每个字符条件概率分布密度,也就是计算每个字符属于每种实体类别标签的概率,将概率最高的标签分配给对应的字符,作为字符的实体类别标签,进而输出医学实体识别结果;
采用条件随机场对医学文本中句子进行序列标注,生成中文字符或英文单词的实体类别标签,输出医学文本实体识别结果;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京理工大学,未经北京理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110890112.9/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种海上溢油微生物处理回收系统
- 下一篇:一种聚酰亚胺薄膜的制备方法