[发明专利]一种基于领域知识的药物致病关系抽取方法有效
申请号: | 202010039800.X | 申请日: | 2020-01-15 |
公开(公告)号: | CN111276258B | 公开(公告)日: | 2022-10-14 |
发明(设计)人: | 杨志豪;李智恒 | 申请(专利权)人: | 大连理工大学 |
主分类号: | G16H70/40 | 分类号: | G16H70/40;G06N3/08;G06N3/04;G06F16/36;G06F40/295 |
代理公司: | 大连星海专利事务所有限公司 21208 | 代理人: | 王树本;徐雪莲 |
地址: | 116024 辽*** | 国省代码: | 辽宁;21 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 领域 知识 药物 致病 关系 抽取 方法 | ||
本发明属于生物医学文本挖掘技术领域,一种基于领域知识的药物致病关系抽取方法,包括以下步骤:(1)处理药物致病关系数据集,(2)构建领域知识集合,(3)根据领域知识构建实体‑关系图,(4)实例中词语的向量表示,(5)搭建KB‑GCN神经网络模型。本发明一种基于领域知识的药物致病关系抽取方法切实可行且结构清晰,具有参考价值。本发明适应于应用数据库中的领域知识从生物医学文本中自动的识别药物致病关系,将有助于构建药物致病数据库,辅助药物副作用预测等方面中的应用。
技术领域
本发明涉及一种基于领域知识的药物致病关系抽取方法,属于生物医学文本挖掘技术领域。
背景技术
药物致病是指人在服用某种药物期间由于药物副作用导致某种疾病或病症的过程。药物致病关系的研究在药物开发、测试及服用阶段受到广发的关注。同时,以比较毒理基因组学数据库为例,其中人为的收录了一些已知的药物导致疾病的关系信息。此外,仍然有许多药物致病关系的描述存在于大量的生物医学文献中。这些药物致病关系对于扩充病理毒理相关数据库、指导药物研发与测试具有重大的理论价值和使用价值。
通过人工方法阅读生物医学文献并从中抽取出药物致病关系,需要生物医学背景知识的支持。这种人工抽取的方法耗时耗力且成本昂贵。随着文本挖掘技术的发展,利用机器学习的方法可以自动地从海量生物医学文本中抽取出药物致病关系。机器学习将药物致病关系抽取任务看作一个分类问题,该方法可以通过对人工标注的有限数量的训练样本进行建模,通过多轮迭代的训练方法得到模型,并应用在测试语料上。机器学习方法与人工方法相比具有成本低、效率高的优势。但是,现有机器学习方法往往忽略了已有数据库中的领域知识,关系抽取的准确率和召回率都有待提升。
发明内容
针对现有技术中存在的不足,本发明目的是提供一种基于领域知识的药物致病关系抽取方法。该方法可以通过对人工标注的有限数量的训练样本进行建模,通过多轮迭代的训练方法得到模型,并应用在测试语料上,克服了人工抽取的方法耗时、耗力且成本昂贵的问题。
为了实现上述发明目的,解决已有技术中存在的问题,本发明采取的技术方案是:一种基于领域知识的药物致病关系抽取方法,包括以下步骤:
步骤1、处理药物致病关系数据集,从已有的药物致病关系抽取评测任务中收集药物致病关系数据集,数据集中已标注出药物实体和疾病实体,以句子为单位,将药物实体与疾病实体组成实体对,按照训练集中标注的关系,处理成句子级别的实例,再将实例进行去重,词干化,去停用词,确定每个词语相对于实体的位置信息,最终得到句子级别的训练集;
步骤2、构建领域知识集合,将训练实例中的药物实体和疾病实体进行统计,并在比较毒理基因组学数据库中找到相关实体信息,获得与训练集中的实体相关的药物实体和疾病实体,并组成药物-疾病关系对,由于比较毒理基因组学数据库中记录了药物和疾病的诱导关系,因此,组成的药物-疾病关系对为药物致病关系对;除此之外,比较毒理基因组学数据库中还记录了基因、蛋白质和药物、疾病之间的关系,抽取出所有的关系,以三元组的形式构建成领域知识集合;
步骤3、根据领域知识构建实体-关系图,对于每一个实例,首先利用命名实体识别工具识别出句子中的所有基因、蛋白质实体,识别出的基因、蛋白质实体和数据集中预标的药物、疾病实体由多个词语组成,对于多个词语组成的命名实体,在实例中用边将实体名称与组成该实体名称的词语连接起来,形成实体图;另外,将实例中的所有实体进行两两组队,若两个实体组成的实体对出现在领域知识集合中,则将实例中这两个实体之间构建一条边,由此,得到以实例中所有词语和实体名称短语为节点,实体内部和实体间的关系作为边的图;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于大连理工大学,未经大连理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010039800.X/2.html,转载请声明来源钻瓜专利网。