[发明专利]一种基于词分组排序算法的生物医学文献检索方法及系统有效
申请号: | 201510147696.5 | 申请日: | 2015-03-31 |
公开(公告)号: | CN104750819B | 公开(公告)日: | 2018-01-23 |
发明(设计)人: | 徐博;林鸿飞 | 申请(专利权)人: | 大连理工大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F17/27 |
代理公司: | 大连星海专利事务所有限公司21208 | 代理人: | 徐雪莲 |
地址: | 116023 辽*** | 国省代码: | 辽宁;21 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 一种基于词分组排序算法的生物医学文献检索方法及系统,检索方法包括S1、搜索引擎查询提取步骤;S2、候选扩展词汇提取步骤;S3、候选扩展词汇的特征提取及标注步骤;S4、候选扩展词汇排序模型训练步骤;S5、在线搜索引擎查询与提取步骤;S6、在线候选扩展词汇提取及其特征提取及打分步骤;S7、查询结果返回步骤。检索系统包括搜索引擎查询提取模块、候选扩展词汇提取模块、候选扩展词汇的特征提取及标注模块、候选扩展词汇排序模型训练模块、查询重构模块、查询结果返回模块。本发明从查询扩展角度出发,通过在查询扩展中利用词分组排序算法和生物医学领域固有词典资源选择最能表达用户信息需求的专业词汇,完成检索任务,改善检索的性能。 | ||
搜索关键词: | 一种 基于 分组 排序 算法 生物医学 文献 检索 方法 系统 | ||
【主权项】:
一种基于词分组排序算法的生物医学文献检索方法,其特征在于,包括以下离线训练阶段和在线查询阶段,其中,离线训练阶段包括以下步骤:S1、搜索引擎查询提取步骤:根据搜索引擎的历史查询记录,提取多组查询以及每个查询中获得的前N条查询结果文档;并将查询及查询结果文档收集到一个查询池中,其中N为自然数;S2、候选扩展词汇提取步骤:根据生物医学资源对查询池中每个查询的前N条查询结果文档中的专业词汇进行提取,并统计获得每个专业词汇在所述查询结果文档中出现的次数或者出现次数的加权和;按照每个专业词汇在查询结果文档中出现的次数或者次数的加权和降序排列,选择出现次数最高或次数的加权和最高的M个专业词汇作为候选扩展词汇,其中M为自然数;S3、候选扩展词汇的特征提取及标注步骤:候选扩展词汇的特征提取及标注同时进行;其中,对候选扩展词汇的相关性标注通过对比原始查询的检索性能和将该候选扩展词汇加入到原始查询中时的检索性能的高低来标注;检索性能高低的评价指标包括:准确率,平均准确率,NDCG值和MRR值;相关性标注的具体方式如下:label=1eval(query+term)>eval(query)0eval(query+term)≤eval(query)]]>其中,eval()为用于评价检索性能高低的评价指标函数,eval(query+term)为评价指标函数eval()在评价将候选扩展词汇term加入到查询query时的得分,eval(query)为评价指标函数在评价查询query时的得分;label标注为1表示该候选扩展词汇与查询query是相关的;label标注为0表示该候选扩展词汇与查询query不相关的;候选扩展词汇的特征提取,是从生物医学资源和查询池中的查询所返回的前N条查询结果文档中提取候选扩展词汇的分布信息、候选词汇在生物医学资源中的分布信息以及候选扩展词汇和原始查询的相关性信息为训练排序模型做准备,并在提取同一候选扩展词汇的多种特征后,对所有特征值进行归一化处理,以将所有特征值控制在[0,1]区间上,归一化的过程如下所示:newFeatureValue=oldFeatureValue-minValuemaxValue-minValue]]>其中,minValue和maxValue分别为某一特征的最小值和最大值;S4、候选扩展词汇排序模型训练步骤:根据候选扩展词汇的相关程度标注和多种特征,利用词分组排序算法训练得到每种特征的权重值,具体步骤为:选择一个步骤S3中被标注为相关的候选扩展词汇和若干被标记为不相关的候选扩展词汇组成一个词分组,选择若干这样的词分组作为训练样本;随机为其中每一个候选扩展词的特征赋予初始权重,通过特征加权得分对每个词分组内的相关候选扩展词汇进行排序;根据每个词分组的排序结果,计算总体排序损失,根据损失函数的梯度值动态调整每一维特征的权重,其中排序损失为:其中NumSample为词分组中候选扩展词汇分组的数量,lossi为每个词分组的损失值,该损失值通过计算相关扩展词汇的排序位置得到,排序位置越靠前对应的损失值越小;通过循环迭代上一过程,直到总体损失值小于某一阈值或达到指定的迭代次数训练完成,将最终选择的特征值作为训练完成的排序模型;在线查询阶段包括以下步骤:S5、在线搜索引擎查询与提取步骤:对于用户在线提交的新查询,检索得到前N1条查询结果;根据生物医学资源对前N1条检索结果中的专业词汇及其多种特征进行提取,其中N1为自然数;S6、在线候选扩展词汇提取及其特征提取及打分步骤:根据生物医学资源对新查询利用离线阶段S2‑S3的候选扩展词汇提取方法及候选扩展词汇的特征提取方法对前N1条检索结果中的在线查询阶段专业词汇及其多种特征进行提取,得到在线查询阶段候选扩展词汇,提取的特征用于衡量候选扩展词汇在扩展查询中的重要性;根据步骤S4训练得到的特征权重,为在线查询阶段候选扩展词汇进行打分,并选择分数靠前的K1个候选扩展词汇加入到在线提交的新查询中作为扩展查询,其中K1为自然数;对于利用生物医学资源标注并提取的某一个在线查询阶段候选扩展词汇,它的得分为其中FeatureNum是特征的总数,ai是排序模型中第i个特征的权重值,featurei(term)是在线查询阶段候选扩展词汇term所对应的第i个特征的特征值;根据在线查询阶段候选扩展词汇得分对其进行排序,并选择排序靠前的K1个在线查询阶段候选扩展词汇作为扩展词汇加入到在线提交的新查询中时,所加入的在线查询阶段候选扩展词汇在扩展查询中的权重可以表示为其中sign为符号函数,当该在线查询阶段候选扩展词汇出现在在线提交的新查询中时sign=1,否则sign=0,weightoriginal为在线提交的新查询在扩展查询中的权重值;S7、查询结果返回步骤:根据扩展查询进行检索,将检索结果返回给用户。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于大连理工大学,未经大连理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201510147696.5/,转载请声明来源钻瓜专利网。