[发明专利]基于医学实体向量的DDIs搜索引擎及其构建方法在审
申请号: | 202111222447.X | 申请日: | 2021-10-20 |
公开(公告)号: | CN113946647A | 公开(公告)日: | 2022-01-18 |
发明(设计)人: | 王理;潘文杰;尹泽宇;邵劲松 | 申请(专利权)人: | 南通大学 |
主分类号: | G06F16/31 | 分类号: | G06F16/31;G06F16/36;G06F16/28 |
代理公司: | 北京科家知识产权代理事务所(普通合伙) 11427 | 代理人: | 宫建华 |
地址: | 226001 *** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 医学 实体 向量 ddis 搜索引擎 及其 构建 方法 | ||
本发明提供了一种基于医学实体向量的DDIs搜索引擎及其构建方法,其中构建方法包含以下步骤:S1:命名实体识别和数据库构建;S2:文献医学实体向量构建;S3:DDI二分类和四分类。由于其与Ising模型和Skip‑Gram模型的结合,它考虑了医学实体的全局和局部关系。医学实体向量的有用性可以在DDI任务中得到很好的证明。结果显示,我们的方法在DDI二分类任务中的F1值高达0.988,在DDI四分类任务中的F1值为0.993,优于以前的方法。
技术领域
本发明涉及药物数据库构建技术领域,尤其涉及一种基于医学实体向量的DDIs搜索引擎及其构建方法。
背景技术
药物间的相互作用(DDIs)是指多种药物一起服用时,药物动力学或药效学特性的改变。在某些情况下,DDIs可能导致药物不良反应(ADRs)。ADRs被认为是一种复杂的,可以影响患者的健康,甚至导致死亡。此外,药物不良反应是临床试验失败的主要原因。因此,DDI已成为药物研究和药物警戒的重点。
由于基因组技术的进步,如下一代测序和高通量方法,每天都有大量的基因组变异信息数据产生。医学文献的数量增加,人工提取DDI是不现实的。且利用从各种渠道获得的不同数据库来识别DDI,这些数据库的质量参差不齐,内容的一致性有限,因此很难为每个相互作用提供真正的临床相关性。另一方面,这些数据库不能很好地适应近年来大量且不断增长的文献。此外,大量的最新和最有价值的信息是非结构化的,以自然语言书写,隐藏在已发表的文章、科学期刊、书籍和技术报告中。因此,在大量的数据库中不能保持所有已发表的关于DDIs的最新信息,造成医务人员的困惑。
发明内容
本发明的目的是为了解决现有技术中由于不能及时更新,限制了DDIs在科学研究和临床应用中的应用。
为了实现上述目的,本发明采用了如下技术方案:
一种基于医学实体向量的DDIs搜索引擎的构建方法,其特征在于:包含以下步骤:
S1:命名实体识别和数据库构建:下载引文,并抽取引文中摘要进行保存,然后对摘要中分词和语义类型进行标注,再进行实体词的筛选,接着过滤实体词,再重复分词和语义类型进行标注,最后筛选关键词;
S2:文献医学实体向量构建:构建稀疏矩阵和相关矩阵,并分批形成梯度,再进行梯度的修正和更新词的嵌入;
S3:DDI二分类和四分类。
优选的,所述S1中引文的下载路径为PubMed,所述S1中筛选实体词时需要保留的项目为DISO、GENE和CHEM。
优选的,所述S1中,使用QuickUMLS开源第三方python工具包对摘要文本进行分词和语义类型标注操作。
优选的,所述S1中过滤实体词,通过根据TextRank值和词频分别对此类实体词进行过滤,剔除TextRank值排前5%和词频为1的实体词,输出过滤后的三类实体。
优选的,所述S2中构建稀疏矩阵及相关矩阵的具体步骤为:将输入的摘要文本实体按照Ising Model的数据结构,构建出稀疏矩阵WISM;
然后将WISM经过SLEP的大规模稀疏数据处理得到其相关矩阵WWCM。
优选的,所述S2中梯度修正采取梯度下降法进行详细的分析。
优选的,所述S3包含以下步骤:预处理文本、生成向量、训练分类器并进行DDI二分类、训练分类器并进行DDI四分类。
优选的,预处理文本过程中遵循两个原则:如果一个药物对中的两个药物出现在同一个坐标结构中,则过滤掉相应的实例;在DrugBank和MedLine中分别删除相同药物的药对。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南通大学,未经南通大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111222447.X/2.html,转载请声明来源钻瓜专利网。