[发明专利]基于医学实体向量的DDIs搜索引擎及其构建方法在审

专利信息
申请号: 202111222447.X 申请日: 2021-10-20
公开(公告)号: CN113946647A 公开(公告)日: 2022-01-18
发明(设计)人: 王理;潘文杰;尹泽宇;邵劲松 申请(专利权)人: 南通大学
主分类号: G06F16/31 分类号: G06F16/31;G06F16/36;G06F16/28
代理公司: 北京科家知识产权代理事务所(普通合伙) 11427 代理人: 宫建华
地址: 226001 *** 国省代码: 江苏;32
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 基于 医学 实体 向量 ddis 搜索引擎 及其 构建 方法
【说明书】:

发明提供了一种基于医学实体向量的DDIs搜索引擎及其构建方法,其中构建方法包含以下步骤:S1:命名实体识别和数据库构建;S2:文献医学实体向量构建;S3:DDI二分类和四分类。由于其与Ising模型和Skip‑Gram模型的结合,它考虑了医学实体的全局和局部关系。医学实体向量的有用性可以在DDI任务中得到很好的证明。结果显示,我们的方法在DDI二分类任务中的F1值高达0.988,在DDI四分类任务中的F1值为0.993,优于以前的方法。

技术领域

本发明涉及药物数据库构建技术领域,尤其涉及一种基于医学实体向量的DDIs搜索引擎及其构建方法。

背景技术

药物间的相互作用(DDIs)是指多种药物一起服用时,药物动力学或药效学特性的改变。在某些情况下,DDIs可能导致药物不良反应(ADRs)。ADRs被认为是一种复杂的,可以影响患者的健康,甚至导致死亡。此外,药物不良反应是临床试验失败的主要原因。因此,DDI已成为药物研究和药物警戒的重点。

由于基因组技术的进步,如下一代测序和高通量方法,每天都有大量的基因组变异信息数据产生。医学文献的数量增加,人工提取DDI是不现实的。且利用从各种渠道获得的不同数据库来识别DDI,这些数据库的质量参差不齐,内容的一致性有限,因此很难为每个相互作用提供真正的临床相关性。另一方面,这些数据库不能很好地适应近年来大量且不断增长的文献。此外,大量的最新和最有价值的信息是非结构化的,以自然语言书写,隐藏在已发表的文章、科学期刊、书籍和技术报告中。因此,在大量的数据库中不能保持所有已发表的关于DDIs的最新信息,造成医务人员的困惑。

发明内容

本发明的目的是为了解决现有技术中由于不能及时更新,限制了DDIs在科学研究和临床应用中的应用。

为了实现上述目的,本发明采用了如下技术方案:

一种基于医学实体向量的DDIs搜索引擎的构建方法,其特征在于:包含以下步骤:

S1:命名实体识别和数据库构建:下载引文,并抽取引文中摘要进行保存,然后对摘要中分词和语义类型进行标注,再进行实体词的筛选,接着过滤实体词,再重复分词和语义类型进行标注,最后筛选关键词;

S2:文献医学实体向量构建:构建稀疏矩阵和相关矩阵,并分批形成梯度,再进行梯度的修正和更新词的嵌入;

S3:DDI二分类和四分类。

优选的,所述S1中引文的下载路径为PubMed,所述S1中筛选实体词时需要保留的项目为DISO、GENE和CHEM。

优选的,所述S1中,使用QuickUMLS开源第三方python工具包对摘要文本进行分词和语义类型标注操作。

优选的,所述S1中过滤实体词,通过根据TextRank值和词频分别对此类实体词进行过滤,剔除TextRank值排前5%和词频为1的实体词,输出过滤后的三类实体。

优选的,所述S2中构建稀疏矩阵及相关矩阵的具体步骤为:将输入的摘要文本实体按照Ising Model的数据结构,构建出稀疏矩阵WISM

然后将WISM经过SLEP的大规模稀疏数据处理得到其相关矩阵WWCM

优选的,所述S2中梯度修正采取梯度下降法进行详细的分析。

优选的,所述S3包含以下步骤:预处理文本、生成向量、训练分类器并进行DDI二分类、训练分类器并进行DDI四分类。

优选的,预处理文本过程中遵循两个原则:如果一个药物对中的两个药物出现在同一个坐标结构中,则过滤掉相应的实例;在DrugBank和MedLine中分别删除相同药物的药对。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南通大学,未经南通大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202111222447.X/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top