[发明专利]一种基于改进随机森林的知识检索优化方法有效
申请号: | 202011082779.8 | 申请日: | 2020-10-12 |
公开(公告)号: | CN112182221B | 公开(公告)日: | 2022-04-05 |
发明(设计)人: | 徐东;华园园;曹雨倩;钟俊捷;蒋馨宙;高荣彬;王浩;陈玉炜 | 申请(专利权)人: | 哈尔滨工程大学 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F16/338;G06K9/62;G06N3/00 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 150001 黑龙江省哈尔滨市南岗区*** | 国省代码: | 黑龙江;23 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 改进 随机 森林 知识 检索 优化 方法 | ||
1.一种基于改进随机森林的知识检索优化方法,其特征在于,包括以下步骤:
步骤1:对知识库知识获取结果文档进行特征提取和空间向量表示,作为训练集;采用Bootstrap抽样方法从训练集中有放回地抽取n个样本,依此重复k次,得到k个训练数据集;据此k个训练数据集训练决策树,生成k棵随机决策树,组成随机森林以此方式操作k个训练集,生成k棵随机决策树,组成随机森林R={h1,h2,....hk};
步骤2:利用互信息法找出随机森林模型中相关度较高的决策树构成决策树组,只保留组内评价精度最高的决策树,获得新的决策树组H[h1,h2,...,hp];
步骤2.1:计算随机森林R={h1,h2,....hk}中决策树之间的相关性;
随机森林中任意两个决策树ha,hb的互信息I(ha,hb)为
I(ha,hb)=H(ya)+H(yb)-H(ya,yb)
其中,ya为决策树ha的输出信息;yb为决策树hb的输出信息;H(ya)为ya的信息熵;H(yb)为yb的信息熵;p(ax)为ya的边缘概率分布;p(by)为yb的边缘概率分布;p(ax,by)为ya与yb的联合概率分布;
步骤2.2:将所有I(ha,hb)大于阈值ε的决策树划分为一个决策树组;
步骤2.3:根据精度I(ha,y)获取每组中精度最高的决策树;以I(ha,y)表示决策树ha与实际标签y的互信息,即决策树ha的输出评价结果与实际评价结果之间的相关性;I(ha,y)的值越大,决策树ha的精度越高;在每一组决策树组中,计算得出其中I(ha,y)值最大的决策树,并将每组选出的决策树合成一个新的决策树组H[h1,h2,...,hp];
步骤3:采用粒子群算法确定所保留的决策树的权值分布,得到完整的随机森林分类模型;
步骤3.1:初始化粒子群,给每个粒子赋予随机的初始位置和速度;所有粒子均采用实数编码,最终决策森林中,每个决策树对最终结果的影响权值,记为ω1至ωp;设定最大迭代次数;
步骤3.2:计算适应值,根据适应度函数,计算每个粒子的适应值;以粒子中ω1至ωp值作为决策树权值,生成随机森林分类模型,以该模型输出评价结果与实际评价结果之间的相关性计算作为适应度函数,相关性值作为适应值;
步骤3.3:计算个体最佳适应值;对每一个粒子,将其当前位置的适应值与其历史最佳位置对应的适应值比较;如果当前位置的适应值更高,则用当前位置更新历史最佳位置;
步骤3.4:计算群体最佳适应值;对每一个粒子,将其当前位置的适应值与其全局最佳位置对应的适应值比较;如果当前位置的适应值更高,则用当前位置更新全局最佳位置;
步骤3.5:更新粒子位置和速度;
其中,为第t次迭代时第j维中粒子i的速度;是粒子i的位置;ω为惯性权重;c1、c2为学习因子;粒子群第t次迭代时的个体极值点;为粒子群的全局极值点;为[0,1]区间内均匀分布的随机数;Vmax是常数;
步骤3.6:判断是否满足结束条件;若未满足结束条件,则返回步骤3.2,若满足结束条件则输出每个粒子的全局最佳位置,得到权值向量W[ω1,ω2,...,ωp];
步骤4:将知识检索结果文档输入到构建的随机森林分类模型中,获取每一文档的相关度分类,实现对知识检索结果的精度排序,并排除与搜索内容相关度极低的检索结果;
步骤4.1:将需要进行优化的所有检索结果文档,进行特征提取和空间向量表示,以获取文档向量组Y[Y1,Y2,Y3,...,Yn];
步骤4.2:将文档向量组Y[Y1,Y2,Y3,...,Yn]中的文档向量输入到决策树组H[h1,h2,...,hp]中,获取每个文档向量Ym根据每棵决策树的评价得分Sm[s1,s2,...,sp];
步骤4.3:对每个文档向量Ym的评价得分Sm[s1,s2,...,sp]进行加权处理,得到每个文档向量Ym的最终得分Zm;
Zm=Sm*WT=[s1,s2,...,sp]·[ω1,ω2,...,ωp]T
步骤4.4:将所有文档向量根据最终得分Zm值进行重新排序,将得分高的文档位置提前、得分低的文档位置推后,达到优化检索结果、提高整体评价精度的目的。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于哈尔滨工程大学,未经哈尔滨工程大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011082779.8/1.html,转载请声明来源钻瓜专利网。