[发明专利]基于医学实体向量的DDIs搜索引擎及其构建方法在审

申请号：	202111222447.X	申请日：	2021-10-20
公开（公告）号：	CN113946647A	公开（公告）日：	2022-01-18
发明（设计）人：	王理;潘文杰;尹泽宇;邵劲松	申请（专利权）人：	南通大学
主分类号：	G06F16/31	分类号：	G06F16/31;G06F16/36;G06F16/28
代理公司：	北京科家知识产权代理事务所(普通合伙) 11427	代理人：	宫建华
地址：	226001 ***	国省代码：	江苏;32
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于医学实体向量 ddis 搜索引擎及其构建方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明提供了一种基于医学实体向量的DDIs搜索引擎及其构建方法，其中构建方法包含以下步骤：S1：命名实体识别和数据库构建；S2：文献医学实体向量构建；S3：DDI二分类和四分类。由于其与Ising模型和Skip‑Gram模型的结合，它考虑了医学实体的全局和局部关系。医学实体向量的有用性可以在DDI任务中得到很好的证明。结果显示，我们的方法在DDI二分类任务中的F1值高达0.988，在DDI四分类任务中的F1值为0.993，优于以前的方法。

技术领域

本发明涉及药物数据库构建技术领域，尤其涉及一种基于医学实体向量的DDIs搜索引擎及其构建方法。

背景技术

药物间的相互作用(DDIs)是指多种药物一起服用时，药物动力学或药效学特性的改变。在某些情况下，DDIs可能导致药物不良反应(ADRs)。ADRs被认为是一种复杂的，可以影响患者的健康，甚至导致死亡。此外，药物不良反应是临床试验失败的主要原因。因此，DDI已成为药物研究和药物警戒的重点。

由于基因组技术的进步，如下一代测序和高通量方法，每天都有大量的基因组变异信息数据产生。医学文献的数量增加，人工提取DDI是不现实的。且利用从各种渠道获得的不同数据库来识别DDI，这些数据库的质量参差不齐，内容的一致性有限，因此很难为每个相互作用提供真正的临床相关性。另一方面，这些数据库不能很好地适应近年来大量且不断增长的文献。此外，大量的最新和最有价值的信息是非结构化的，以自然语言书写，隐藏在已发表的文章、科学期刊、书籍和技术报告中。因此，在大量的数据库中不能保持所有已发表的关于DDIs的最新信息，造成医务人员的困惑。

发明内容

本发明的目的是为了解决现有技术中由于不能及时更新，限制了DDIs在科学研究和临床应用中的应用。

为了实现上述目的，本发明采用了如下技术方案：

一种基于医学实体向量的DDIs搜索引擎的构建方法，其特征在于：包含以下步骤：

S1：命名实体识别和数据库构建：下载引文，并抽取引文中摘要进行保存，然后对摘要中分词和语义类型进行标注，再进行实体词的筛选，接着过滤实体词，再重复分词和语义类型进行标注，最后筛选关键词；

S2：文献医学实体向量构建：构建稀疏矩阵和相关矩阵，并分批形成梯度，再进行梯度的修正和更新词的嵌入；

S3：DDI二分类和四分类。

优选的，所述S1中引文的下载路径为PubMed，所述S1中筛选实体词时需要保留的项目为DISO、GENE和CHEM。

优选的，所述S1中，使用QuickUMLS开源第三方python工具包对摘要文本进行分词和语义类型标注操作。

优选的，所述S1中过滤实体词，通过根据TextRank值和词频分别对此类实体词进行过滤，剔除TextRank值排前5％和词频为1的实体词，输出过滤后的三类实体。

优选的，所述S2中构建稀疏矩阵及相关矩阵的具体步骤为：将输入的摘要文本实体按照Ising Model的数据结构，构建出稀疏矩阵W_ISM；

然后将W_ISM经过SLEP的大规模稀疏数据处理得到其相关矩阵W_WCM。