[发明专利]一种基于多粒度文本嵌入的医学实体识别方法有效

专利信息
申请号: 202110890112.9 申请日: 2021-08-04
公开(公告)号: CN113779993B 公开(公告)日: 2023-02-28
发明(设计)人: 道捷;张春霞;彭成;薛晓军;王瞳;徐天祥;郭贵锁 申请(专利权)人: 北京理工大学
主分类号: G06F40/295 分类号: G06F40/295;G06F40/289;G06F40/242;G06F16/35;G06N3/042
代理公司: 北京正阳理工知识产权代理事务所(普通合伙) 11639 代理人: 张利萍
地址: 100081 *** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 粒度 文本 嵌入 医学 实体 识别 方法
【权利要求书】:

1.一种基于多粒度文本嵌入的医学实体识别方法,其特征在于:包括以下步骤:

步骤1:通过预训练语言模型构建多粒度文本嵌入,包括如下步骤:

步骤1.1:对于非结构化的中文医学文本,构建多粒度文本嵌入;

步骤1.1.1:利用预训练语言模型MC-Bert进行符号嵌入、分割嵌入和遮盖嵌入的学习,生成非结构化的中文医学文本的字符嵌入;

对于非结构化的中文医学文本,预训练语言模型MC-Bert的输入由三种嵌入组成,分别是符号嵌入、分割嵌入和遮盖嵌入;

步骤1.1.2:生成中文医学文本的词嵌入、词性嵌入以及短语嵌入;

首先,对于中文医学文本,使用jieba分词工具获得中文医学文本的词语,利用词性标注器Stanford postagger获得中文医学文本的词语的词性标记,利用句法分析器Stanfordparser获得中文医学文本的短语标记;

然后,利用word2vec工具生成词嵌入、词性嵌入以及短语嵌入;

步骤1.1.3:对于非结构化的中文医学文本,利用word2vec工具生成子串嵌入,具体为:

首先,采集医学术语词典,构建医学术语子串集合,具体为:对于任意两个术语,提取两个术语的最长公共子串,添加到医学术语子串集合;若两个术语有多个相同长度的最长公共子串,则取第一个最长公共子串,添加到医学术语子串集合;

其次,对医学术语子串集合中的子串,利用word2vec工具生成所有子串的嵌入表示;

步骤1.1.4:将中文医学文本的字符嵌入、词嵌入、词性嵌入、短语嵌入以及子串嵌入进行拼接,构建多粒度文本嵌入;

步骤1.2:对于非结构化的英文医学文本,构建多粒度文本嵌入,包括以下步骤:

步骤1.2.1:利用预训练语言模型BioBert进行符号嵌入、分割嵌入和遮盖嵌入的学习,生成非结构化的英文医学文本的单词嵌入;

BioBert是根据英文医学数据训练生成的预训练模型;

步骤1.2.2:生成英文医学文本的字符嵌入、词性嵌入以及短语嵌入;

对于英文医学文本,利用word2vec工具生成字符嵌入、词性嵌入、短语嵌入;

步骤1.2.3:对于非结构化的英文医学文本,利用word2vec工具生成子串嵌入;

首先,采集英文医学术语词典,构建医学术语子串集合;对于任意两个术语,提取两个术语的最长公共子串,添加到医学术语子串集合;若两个术语有多个相同长度的最长公共子串,则取第一个最长公共子串,添加到医学术语子串集合;

其次,利用word2vec工具生成所有子串的嵌入表示;

然后,对于英文文句子ES,ES=(ew1,ew2,...,ewn),ew1,ew2,...,ewn为单词,对于每个单词ewi(i=1,2,...,n),判断单词ewi是否包含医学术语子串集合中的子串;设单词ewi包含医学术语子串集合中的子串esubs1,esubs2,...,esubsq,子串esubs1,esubs2,...,esubsq的嵌入表示为ees1,ees2,....,eesq,则单词ewi的子串嵌入表示eessi为:对ees1,ees2,....,eesq相加求和,然后除以子串个数q的结果;若单词ewi不包含医学术语子串集合中的任何子串,则输出为自定义值;

最后,对于句子ES中的每个单词ewi(i=1,2,...,n),按照以上步骤生成其对应的子串嵌入;句子ES的子串嵌入为Eess=(eess1,eess2,....,eessn);

步骤1.2.4:将英文医学文本的字符嵌入、词嵌入、词性嵌入、短语嵌入以及子串嵌入进行拼接,构建多粒度文本嵌入;

步骤2:根据医学实体构成模式,生成中文句子中所有字符的模式权重,包括如下步骤:

步骤2.1:构建中文医学实体构成模式;

医学实体构成模式的构成形式为:“Y1+Y2+Y3+...+Yk”;

其中,Y1,Y2,Y3,...,Yk表示词语的类别,“+”表示字符串的链接操作;

词语的类别包括否定词、临床表现、解剖部位、修饰词、疾病名称、体格检查、数值、量词以及药品;

步骤2.2:生成中文句子中字符的模式权重;

步骤3:使用图注意力网络和模式强化注意力机制,进行结点嵌入表示学习,包括如下步骤:

步骤3.1利用全连接层对中文字符结点、或英文单词结点的嵌入维度进行变换;

对于中文句子CS中每个字符的多粒度文本嵌入,输入至全连接层,对中文多粒度文本嵌入的嵌入维度进行转换;转换维度的原因是:多粒度文本嵌入维度需与步骤3.2中使用的图注意力网络的结点向量输入维度一致;

同理,对于英文句子ES中每个单词的多粒度文本嵌入,输入至全连接层,对英文多粒度文本嵌入的嵌入维度进行转换;

在全连接层中,首先,经过线性层转换维度;然后,利用dropout方法防止过拟合;最后,通过激活函数Relu防止梯度消失;

步骤3.2:对于中文医学文本,利用中文句子中字符的模式权重,将图注意力网络的中文字符结点的注意力权重与模式权重相乘;对于英文医学文本,图注意力网络中英文单词结点的模式权重设为1;

对于中文医学文本,图注意力网络的结点嵌入为字符的嵌入,字符嵌入为步骤3.1生成的字符嵌入;对于英文医学文本,图注意力网络的结点嵌入为单词的嵌入,单词嵌入为步骤3.1生成的单词嵌入;

步骤3.2.1:计算图注意力网络中结点的注意力权重;

步骤3.2.2:更新图注意力网络中结点的注意力权重;

步骤4:采用条件随机场生成医学文本的实体类别标签,输出医学实体识别结果,具体为:生成中文字符或英文单词的实体类别标签;

其中,基于条件随机场计算每个字符条件概率分布密度,也就是计算每个字符属于每种实体类别标签的概率,将概率最高的标签分配给对应的字符,作为字符的实体类别标签,进而输出医学实体识别结果;

采用条件随机场对医学文本中句子进行序列标注,生成中文字符或英文单词的实体类别标签,输出医学文本实体识别结果;

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京理工大学,未经北京理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202110890112.9/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top