[发明专利]公共医疗卫生命名实体识别与实体链接方法、装置、电子设备及存储介质有效
申请号: | 202110195263.2 | 申请日: | 2021-02-19 |
公开(公告)号: | CN112836019B | 公开(公告)日: | 2023-04-25 |
发明(设计)人: | 马博;郭世伟;马玉鹏;杨雅婷;周喜;王磊 | 申请(专利权)人: | 中国科学院新疆理化技术研究所 |
主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F16/36;G06F40/242;G06F40/295;G06N20/00 |
代理公司: | 乌鲁木齐中科新兴专利事务所(普通合伙) 65106 | 代理人: | 张莉 |
地址: | 830011 新疆维吾尔*** | 国省代码: | 新疆;65 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 公共 医疗卫生 命名 实体 识别 链接 方法 装置 电子设备 存储 介质 | ||
本发明公开了一种公共医疗卫生命名实体识别与实体链接的方法、装置、电子设备以及存储介质,包括:获取多个中文命名实体识别数据集,并训练得到一个群模型;通过实施特定的迁移学习方法得到一个细粒度的命名实体识别模型;抽取面向公共卫生与医疗知识图谱中的实体,并利用实体字符序列构建字典树实体匹配模型;将输入文本的多源字符序列表示输入到上述多种模型中得到识别出的命名实体集合,并将集合中的实体链接到知识图谱中的某一实体项;将所述输入文本的命名实体链接到对应知识图谱。根据本申请的技术既可以保证模型具备较高的识别率,又可以保证模型在较小样本的情况能够快速学习到新的实体类别,提高模型的适应能力。
技术领域
本发明涉及命名实体识别、实体链接技术领域,尤其涉及一种公共医疗卫生命名实体识 别与实体链接方法、装置、电子设备及存储介质。
背景技术
近些年随着人工智能的发展,特别是深度学习技术的日益成熟,人工智能在各行各业中 发挥越来越重要的作用。对于公共医疗卫生领域,自动化地识别出公共卫生事件中的专有名 词和实体名词并链接到相应的知识图谱,以实现这些专有实体名词的自动化释义。对于遏制公众对突发性公共卫生事件的恐慌情绪,识别社交网络中谣言的传播,以及辅助公众对突发 性公共卫生事件的理解有着积极作用。此外,解决医疗卫生领域的问题往往需要多部门,多 学科的交叉协力。能够自动识别文本中有关专业名词,并自动化加以解释,会加速部门间或 学科间的沟通,对于相关部门快速反应公共医疗卫生问题有着积极的作用。而在自动化识别和解释文本中专有名词的技术中,最为核心的是命名实体识别与链接技术。
现有公共医疗卫生命名实体识别与链接技术通常只在一个医疗类数据集上训练得到命名 实体识别模型,这样训练出来的模型只能识别少量的实体类别,对于不在训练集中的实体类 别将无法识别出来。或者将多个数据集合并成一个大的训练数据集,并在合并后的数据集上直接训练命名实体识别模型,但是由于合并后的数据集包含过多的实体类别,因此模型在识 别实体类别时更容易出错,并且不能扩展到其他新的实体类别。
发明内容
本发明目的在于,提供了一种公共医疗卫生命名实体识别与实体链接方法、装置、电子 设备及存储介质。包括:获取多个中文命名实体识别数据集,并在多个中文命名实体识别数 据集上训练得到一个群模型;将所述多个中文命名实体识别数据集合并成一个全数据集,在所述全数据集上实施特定的迁移学习方法得到一个细粒度命名实体识别模型;抽取面向公共 卫生与医疗知识图谱中的实体,并利用抽取实体的字符序列构建字典树实体匹配模型;获取 输入文本的多源字符序列表示,将所述多源字符序列表示输入到群模型、细粒度命名实体识 别模型以及字典树实体匹配模型中得到识别出的命名实体集合,并将命名实体集合中的实体链接到对应知识图谱中的某一实体项;将所述输入文本的命名实体链接到对应知识图谱。通 过多个数据集训练多个实体识别模型可以即保证识别更多类型的实体,又可以实现每个模型 仅含有较少类型的实体,保证单个模型有较高的识别率,使用特定的迁移学习方法训练细粒 度命名实体识别模型保证模型在较小样本的情况可以快速学习到新的实体类别,提高模型的适应能力。
本发明所述的一种公共医疗卫生命名实体识别与实体链接方法,按下列步骤进行:
a、获取多个中文命名实体识别数据集,并在多个中文命名实体识别数据集上训练得到一 个群模型;
b、将步骤a中多个中文命名实体识别数据集合并成一个全数据集,在全数据集上实施特 定的迁移学习方法得到一个细粒度命名实体识别模型;
c、抽取面向公共卫生与医疗知识图谱中的实体,并利用抽取实体的字符序列构建字典树 实体匹配模型;
d、获取输入文本的多源字符序列表示,将所述多源字符序列表示输入到群模型、细粒度 命名实体识别模型以及字典树实体匹配模型中得到识别出的命名实体集合,并将命名实体集 合中的实体链接到对应知识图谱中的某一实体项;
e、将所述输入文本的命名实体链接到对应知识图谱。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院新疆理化技术研究所,未经中国科学院新疆理化技术研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110195263.2/2.html,转载请声明来源钻瓜专利网。