[发明专利]公共医疗卫生命名实体识别与实体链接方法、装置、电子设备及存储介质有效
申请号: | 202110195263.2 | 申请日: | 2021-02-19 |
公开(公告)号: | CN112836019B | 公开(公告)日: | 2023-04-25 |
发明(设计)人: | 马博;郭世伟;马玉鹏;杨雅婷;周喜;王磊 | 申请(专利权)人: | 中国科学院新疆理化技术研究所 |
主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F16/36;G06F40/242;G06F40/295;G06N20/00 |
代理公司: | 乌鲁木齐中科新兴专利事务所(普通合伙) 65106 | 代理人: | 张莉 |
地址: | 830011 新疆维吾尔*** | 国省代码: | 新疆;65 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 公共 医疗卫生 命名 实体 识别 链接 方法 装置 电子设备 存储 介质 | ||
1.一种公共医疗卫生命名实体识别与实体链接方法,其特征在于,按下列步骤进行:
a、获取多个中文命名实体识别数据集,并在多个中文命名实体识别数据集上训练得到一个群模型,所述在多个中文命名实体识别数据集上训练得到一个群模型是收集多个不同来源的中文命名实体识别数据集,合并成一个数据集第一集合D={d1,d2,…,dM},其中,M为中文命名实体识别数据集的数量,d1,d2,…,dM表示不同的数据集;利用flat-transformer模型在M个不同中文命名实体识别数据集上进行训练,获得一个中文命名实体识别模型第二集合Q={R1,R2,…,RM},其中,M是中文命名实体识别数据集的数量,R1,R2,…,RM表示训练得到的模型,将所述中文命名实体识别模型第二集合Q确定为所述群模型;
b、将步骤a中多个中文命名实体识别数据集合并成一个全数据集,在全数据集上实施特定的迁移学习方法得到一个细粒度命名实体识别模型,所述多个中文命名实体识别数据集合并成一个全数据集,在全数据集上实施特定的迁移学习方法得到一个细粒度命名实体识别模型;包括:
确定所述第一集合D中每个中文命名实体识别数据集中实体类型;
将所述每个中文命名实体识别数据集中的实体类型合并,得到一个命名实体类型第三集合T={t1,t2,…,tN},其中,N为所有中文命名实体识别数据集中实体类型的数量,t1,t2,…,tN为实体类型;
将所述命名实体类型第三集合T中相似的实体类型进行合并,得到新命名实体类型第四集合Tnew={t1,t2,…,tV},其中,V为合并命名实体类型后的命名实体类型数量,t1,t2,…,tV为新的实体类型;
根据所述新命名实体类型第四集合Tnew,从每一个实体类型中抽取c条数据样本,其中,c的取值为1000-2000,对于不足c条样本的实体类型,则抽取所有样本,将抽取的所有第四集合Tnew中实体类型对应的样本组合成一个新的数据集第五集合Dnew;
将所述抽取的所有第四集合Tnew中实体类型对应的样本组合成一个新的数据集第五集合Dnew确定为所述全数据集;
所述全数据集上实施特定的迁移学习方法,包括以下步骤:
步骤1:从所述全数据集中随机抽取i个实体类型;
步骤2:获取i个实体类型的所有样本,得到第六集合S={S1,S2,…,Si},其中,S1,S2,…,Si为各个实体类型所包含的样本;
步骤3:判断样本集第六集合S的大小是否满足大于等于NM,其中,NM为一常数,取值范围3000以上,如果满足则执行后续步骤,否则返回步骤1;
步骤4:利用样本集第六集合S和flat-transformer训练得到一个命名实体识别模型;
步骤5:从所述全数据集中再采样一个实体类型j,与已有的i个实体类型合并,得到i+1个实体类型;
步骤6:从实体类型j中抽取少量样本得到第七集合S’,其中少量为几十到200以下;
步骤7:利用步骤4得到的模型计算第六集合S和第七集合S’的损失loss1,loss2;
步骤8:根据loss=loss1+loss2训练模型直到近似收敛;
步骤9:重复执行步骤6-8,直到实体类型j中所有样本均被采样参与训练,得到一个i+1个实体类别的命名实体识别模型;
步骤10:重复执行步骤5-9,直到所有实体类别均被采样参与训练,得到一个包含V个实体类别的命名实体识别模型,其中V为实体类别的数量,并利用V个实体类别的命名实体识别模型初始化步骤4中的flat-transformer参数;
步骤11:重复执行上述所有步骤,直到V个实体类别的命名实体识别模型收敛,确定所述V个实体类别的命名实体识别模型为细粒度命名实体识别模型;
c、抽取面向公共卫生与医疗知识图谱中的实体,并利用抽取实体的字符序列构建字典树实体匹配模型;
d、获取输入文本的多源字符序列表示,将所述多源字符序列表示输入到群模型、细粒度命名实体识别模型以及字典树实体匹配模型中得到识别出的命名实体集合,并将命名实体集合中的实体链接到对应知识图谱中的某一实体项,所述获取输入文本的多源字符序列表示,将当前输入文本的字符序列分别按照字符和词分割,得到第二字符序列和第一词序列;
将所述第二字符序列和第一词序列输入到预训练词嵌入表中,得到词嵌入向量;
将所述词嵌入向量和第二字符序列确定为所述多源字符序列表示;
将所述多源字符序列中的词嵌入向量输入到所述群模型中,并得到由群模型识别出的实体;
将所述多源字符序列表示中的第二字符序列输入到所述字典树实体匹配模型中,并得到匹配出的实体;
将所述多源字符序列中的词嵌入向量输入到所述细粒度命名实体识别模型中,并得到由细粒度命名实体识别模型识别出的实体;
将识别或匹配得到的实体合并得到当前输入文本的命名实体集合;
将所述当前输入文本的实体集合中由所述字典树实体匹配模型得到的实体链接至面向公共卫生与医疗知识图谱中相应的实体;
将当前所述输入文本的实体集合中医学类命名实体链接至面向公共卫生与医疗知识图谱中相应的实体;
将知识图谱中所有候选实体的描述文本按字符和词分割得到第三字符序列和第二词序列,对于任意一个候选实体第八集合Ei={Wi,Ci},其中,Wi表示第二词序列,Ci表示第三字符序列,i∈[1,n],n为候选实体的个数;
对于任意一个候选实体第八集合Ei={Wi,Ci},保留只在Wi中出现,很少在Wj中出现的词,得到第三词序列Winew,保留只在Ci中出现的字,很少在第四字符序列Cj中出现的字,得到第五字符序列Cinew,对任意一个候选实体得到第九集合Einew={Winew,Cinew},其中i,j∈[1,n]且i≠j;将所述当前输入文本按字符和词分割得到第六字符序列Cseq和第四词序列Wseq,分别计算Einew中字符在Cseq中出现的次数,词在Wseq中出现的次数,选择Einew出现次数最大的实体作为最佳候选实体;
将当前所述输入文本的实体集合中其他类型命名实体链接至通用百科类知识图谱中相应的最佳候选实体;
e、将所述输入文本的命名实体链接到对应知识图谱。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院新疆理化技术研究所,未经中国科学院新疆理化技术研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110195263.2/1.html,转载请声明来源钻瓜专利网。