[发明专利]基于MeSH的医学文献集相似性度量方法有效
申请号: | 201810685265.8 | 申请日: | 2018-06-28 |
公开(公告)号: | CN108874755B | 公开(公告)日: | 2020-12-08 |
发明(设计)人: | 邹见效;鲁文斌;凡时财;徐红兵 | 申请(专利权)人: | 电子科技大学 |
主分类号: | G06F40/194 | 分类号: | G06F40/194;G06F40/216;G06F16/35 |
代理公司: | 成都正华专利代理事务所(普通合伙) 51229 | 代理人: | 何凡 |
地址: | 611731 四川省成*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 mesh 医学 文献 相似性 度量 方法 | ||
本发明公开了一种基于MeSH的医学文献集相似性度量方法,其包括获取与疾病或基因相关的搜索主题词;检索与所述搜索主题词相关的文献,并采用同一搜索主题词检索得到的所有文献形成主题词文献集;采用主题词文献集中每篇文献在其内包含的医学主题词的权重值,将文献映射到向量空间构建成MeSH空间矩阵;计算主题词文献集A在MeSH空间矩阵中医学主题词g的权重值;根据主题词文献集在所有医学主题词的权重值,构建主题词文献集A的矢量式;计算MeSH空间矩阵中文献集A与文献集B的余弦相似度。
技术领域
本发明涉及文献之间相似度的计算,具体涉及基于MeSH(Vetor Space Model,向量空间模型)的医学文献集相似性度量方法。
背景技术
传统的医学文献集相似度计算方法,有通过人工标定将原始医学文献数据转化为疾病和基因的关系并记录在数据库中,建立了遗传关联数据库;也有通过遗传数据库提取了疾病和一千七百多种基因的关系,创建了人类疾病网络;还有通过特征向量中心、中介中心性等数据指标得到了疾病相关的基因网络。但是基于人工标定的文献关系挖掘,审核需要精力,无法满足文献新增速度;基于语义的文献挖掘,涉及自然语言处理,计算量太大,限制了挖掘的总样本数。且大多数文献相似度的计算算法,仅仅能感知文献的字面含义,无法在文献的隐含语义层面来进步挖掘相似性。
发明内容
针对现有技术中的上述不足,本发明提供的基于MeSH的医学文献集相似性度量方法解决了传统方法仅仅感知文献表面意义,无法挖掘隐含信息的相似性的问题。
为了达到上述发明目的,本发明采用的技术方案为:
提供一种基于MeSH的医学文献集相似性度量方法,其包括:
获取与疾病或基因相关的搜索主题词;
检索与所述搜索主题词相关的文献,并采用同一搜索主题词检索得到的所有文献形成主题词文献集;
采用主题词文献集中每篇文献在其内包含的医学主题词的权重值,将文献映射到向量空间构建成MeSH空间矩阵;
计算主题词文献集A在MeSH空间矩阵中医学主题词g的权重值WAn:
其中,f是指含搜索主题词A的文献总数;nAj为与搜索主题词A相关的文章中,第j篇文章对应的MeSH主题词的个数;ej为第j篇文献被引用的次数;k为f篇文献中包含医学主题词g的篇数,1≤g≤m,m为医学主题的总个数;ei为第i篇文献被引用的次数;f’为搜索主题词B对应的文献集与搜索主题词A的文献集交集的数量;qg为包含医学主题词g的文章数量;
根据主题词文献集A在所有医学主题词的权重值,构建主题词文献集A的矢量式:WA=(wA1,wA2,…,wAm);
计算MeSH空间矩阵中主题词文献集A与主题词文献集B的余弦相似度:
其中,WBg为主题词文献集B与MeSH空间矩阵中医学主题词g的权重值。
本发明的有益效果为:本方案能够将包含搜索主题词的所有文献集归类成单独的一个集合,之后再通过医学主题词计算两个集合的相似度关联起来,通过集合之间相关性可以更加全面地找到疾病与疾病、疾病与基因之间地关系,从而为治疗疾病提供可靠的诊断和治疗指导。
本方案通过研究搜索主体词和文献内容上同时感知医学文献集的相似性,通过文献集间的相互引用,提供更精准的关系挖掘;通过本方案提供的方法能够应对海量文献数据和多个主题的应用场景,提供快速高效的相似度计算,极大程度上节省了人力资源。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于电子科技大学,未经电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810685265.8/2.html,转载请声明来源钻瓜专利网。
- 上一篇:语言模型压缩方法和系统
- 下一篇:一种验证码优化方法