[发明专利]公共医疗卫生命名实体识别与实体链接方法、装置、电子设备及存储介质有效

申请号：	202110195263.2	申请日：	2021-02-19
公开（公告）号：	CN112836019B	公开（公告）日：	2023-04-25
发明（设计）人：	马博;郭世伟;马玉鹏;杨雅婷;周喜;王磊	申请（专利权）人：	中国科学院新疆理化技术研究所
主分类号：	G06F16/33	分类号：	G06F16/33;G06F16/36;G06F40/242;G06F40/295;G06N20/00
代理公司：	乌鲁木齐中科新兴专利事务所(普通合伙) 65106	代理人：	张莉
地址：	830011 新疆维吾尔***	国省代码：	新疆;65
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	公共医疗卫生命名实体识别链接方法装置电子设备存储介质
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种公共医疗卫生命名实体识别与实体链接方法，其特征在于，按下列步骤进行：

a、获取多个中文命名实体识别数据集，并在多个中文命名实体识别数据集上训练得到一个群模型，所述在多个中文命名实体识别数据集上训练得到一个群模型是收集多个不同来源的中文命名实体识别数据集，合并成一个数据集第一集合D＝{d₁,d₂,…,d_M}，其中，M为中文命名实体识别数据集的数量，d₁,d₂,…,d_M表示不同的数据集；利用flat-transformer模型在M个不同中文命名实体识别数据集上进行训练，获得一个中文命名实体识别模型第二集合Q＝{R₁,R₂,…,R_M}，其中，M是中文命名实体识别数据集的数量，R₁,R₂,…,R_M表示训练得到的模型，将所述中文命名实体识别模型第二集合Q确定为所述群模型；

b、将步骤a中多个中文命名实体识别数据集合并成一个全数据集，在全数据集上实施特定的迁移学习方法得到一个细粒度命名实体识别模型，所述多个中文命名实体识别数据集合并成一个全数据集，在全数据集上实施特定的迁移学习方法得到一个细粒度命名实体识别模型；包括：

确定所述第一集合D中每个中文命名实体识别数据集中实体类型；

将所述每个中文命名实体识别数据集中的实体类型合并，得到一个命名实体类型第三集合T＝{t₁,t₂,…,t_N}，其中，N为所有中文命名实体识别数据集中实体类型的数量，t₁,t₂,…,t_N为实体类型；

将所述命名实体类型第三集合T中相似的实体类型进行合并，得到新命名实体类型第四集合T_new＝{t₁,t₂,…,t_V}，其中，V为合并命名实体类型后的命名实体类型数量，t₁,t₂,…,t_V为新的实体类型；

根据所述新命名实体类型第四集合T_new，从每一个实体类型中抽取c条数据样本，其中，c的取值为1000-2000，对于不足c条样本的实体类型，则抽取所有样本，将抽取的所有第四集合T_new中实体类型对应的样本组合成一个新的数据集第五集合D_new；

将所述抽取的所有第四集合T_new中实体类型对应的样本组合成一个新的数据集第五集合D_new确定为所述全数据集；

所述全数据集上实施特定的迁移学习方法，包括以下步骤：

步骤1：从所述全数据集中随机抽取i个实体类型；

步骤2：获取i个实体类型的所有样本，得到第六集合S＝{S₁,S₂,…,S_i}，其中，S₁,S₂,…,S_i为各个实体类型所包含的样本；

步骤3：判断样本集第六集合S的大小是否满足大于等于NM，其中，NM为一常数，取值范围3000以上，如果满足则执行后续步骤，否则返回步骤1；

步骤4：利用样本集第六集合S和flat-transformer训练得到一个命名实体识别模型；

步骤5：从所述全数据集中再采样一个实体类型j，与已有的i个实体类型合并，得到i+1个实体类型；

步骤6：从实体类型j中抽取少量样本得到第七集合S’，其中少量为几十到200以下；

步骤7：利用步骤4得到的模型计算第六集合S和第七集合S’的损失loss₁，loss₂；

步骤8：根据loss＝loss₁+loss₂训练模型直到近似收敛；

步骤9：重复执行步骤6-8，直到实体类型j中所有样本均被采样参与训练，得到一个i+1个实体类别的命名实体识别模型；

步骤10：重复执行步骤5-9，直到所有实体类别均被采样参与训练，得到一个包含V个实体类别的命名实体识别模型，其中V为实体类别的数量，并利用V个实体类别的命名实体识别模型初始化步骤4中的flat-transformer参数；

步骤11：重复执行上述所有步骤，直到V个实体类别的命名实体识别模型收敛，确定所述V个实体类别的命名实体识别模型为细粒度命名实体识别模型；

c、抽取面向公共卫生与医疗知识图谱中的实体，并利用抽取实体的字符序列构建字典树实体匹配模型；

d、获取输入文本的多源字符序列表示，将所述多源字符序列表示输入到群模型、细粒度命名实体识别模型以及字典树实体匹配模型中得到识别出的命名实体集合，并将命名实体集合中的实体链接到对应知识图谱中的某一实体项，所述获取输入文本的多源字符序列表示，将当前输入文本的字符序列分别按照字符和词分割，得到第二字符序列和第一词序列；

将所述第二字符序列和第一词序列输入到预训练词嵌入表中，得到词嵌入向量；

将所述词嵌入向量和第二字符序列确定为所述多源字符序列表示；

将所述多源字符序列中的词嵌入向量输入到所述群模型中，并得到由群模型识别出的实体；

将所述多源字符序列表示中的第二字符序列输入到所述字典树实体匹配模型中，并得到匹配出的实体；

将所述多源字符序列中的词嵌入向量输入到所述细粒度命名实体识别模型中，并得到由细粒度命名实体识别模型识别出的实体；

将识别或匹配得到的实体合并得到当前输入文本的命名实体集合；

将所述当前输入文本的实体集合中由所述字典树实体匹配模型得到的实体链接至面向公共卫生与医疗知识图谱中相应的实体；

将当前所述输入文本的实体集合中医学类命名实体链接至面向公共卫生与医疗知识图谱中相应的实体；

将知识图谱中所有候选实体的描述文本按字符和词分割得到第三字符序列和第二词序列，对于任意一个候选实体第八集合E_i＝{W_i,C_i}，其中，W_i表示第二词序列，C_i表示第三字符序列，i∈[1，n]，n为候选实体的个数；

对于任意一个候选实体第八集合E_i＝{W_i,C_i}，保留只在W_i中出现，很少在W_j中出现的词，得到第三词序列W_i^new，保留只在C_i中出现的字，很少在第四字符序列C_j中出现的字，得到第五字符序列C_i^new，对任意一个候选实体得到第九集合E_i^new＝{W_i^new,C_i^new}，其中i，j∈[1，n]且i≠j；将所述当前输入文本按字符和词分割得到第六字符序列C_seq和第四词序列W_seq，分别计算E_i^new中字符在C_seq中出现的次数，词在W_seq中出现的次数，选择E_i^new出现次数最大的实体作为最佳候选实体；

将当前所述输入文本的实体集合中其他类型命名实体链接至通用百科类知识图谱中相应的最佳候选实体；

e、将所述输入文本的命名实体链接到对应知识图谱。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于中国科学院新疆理化技术研究所，未经中国科学院新疆理化技术研究所许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202110195263.2/1.html，转载请声明来源钻瓜专利网。

上一篇：一种防止手机触摸屏撞击的装置
下一篇：基于家居设计的文案播报方法、装置、设备及存储介质

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]公共医疗卫生命名实体识别与实体链接方法、装置、电子设备及存储介质有效

专利文献下载