[发明专利]一种基于TF‑IDF的多索引结果合并排序方法有效
申请号: | 201410473307.3 | 申请日: | 2014-09-16 |
公开(公告)号: | CN104298715B | 公开(公告)日: | 2017-12-19 |
发明(设计)人: | 王德庆;陈勇;刘瑞 | 申请(专利权)人: | 北京航空航天大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京汲智翼成知识产权代理事务所(普通合伙)11381 | 代理人: | 陈曦,符浩 |
地址: | 100191*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种基于TF‑IDF的多索引结果合并排序方法,包括如下步骤对待索引资源的核心元数据进行特征词提取,构建不同类别资源的特征词库;通过计算用户检索词与各类资源的所有特征词的相关度系数确定索引权重因子;根据用户输入的检索词,采用改进的TF‑IDF算法获得每类资源的TF‑IDF权重;采用加权合并算法,将每类资源的索引权重因子以及该类资源的TF‑IDF权重相结合,获得该类资源的最终TF‑IDF权重,并根据资源的最终TF‑IDF权重的大小将检索结果进行排序。本发明充分考虑了检索过程中词语的重要性、词语的分布情况以及词序因子和词距因子,有效改善了多索引结果合并排序的效果。 | ||
搜索关键词: | 一种 基于 tf idf 索引 结果 合并 排序 方法 | ||
【主权项】:
一种基于TF‑IDF的多索引结果合并排序方法,其特征在于包括如下步骤:对科技资源核心元数据进行特征词提取,构建不同类别资源的特征词库;通过计算用户检索词与每类资源的所有特征词的相关度系数确定索引权重因子;索引权重因子通过公式求得;Qterm是用户输入的检索词,Qterm是该类资源的特征词,n是用户输入的检索词的个数,N是该类资源的特征词的个数,sim(Qtermi,Dtermj)代表用户输入的检索词i与该类资源的特征词j的相似度;根据用户输入的检索词,采用获得每类资源的TF‑IDF权重score;其中,TF‑IDF因子是Lucene中TF‑IDF算法的计算结果;distance(terms)是每类资源的所有词语之间的词序和词距因子;boost(term)指特征词权重因子;decrease是在计算每类资源的TF‑IDF权重score过程中由于扩展查询增加的扩展词权重衰减因子;动态调整因子a用以对特征词的权重进行调整;针对每类资源,分别通过公式weight=indexDecrease*indexBoot*score将该类资源索引权重因子以及该类资源的TF‑IDF权重score相结合,获得该类资源的最终TF‑IDF权重weight,并根据每类资源的最终TF‑IDF权重weight的大小将检索结果进行排序;其中,indexDecrease是索引权重衰减因子。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京航空航天大学,未经北京航空航天大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201410473307.3/,转载请声明来源钻瓜专利网。