[发明专利]一种基于随机森林改进的实体解析方法有效
申请号: | 202110160938.X | 申请日: | 2021-02-05 |
公开(公告)号: | CN112860959B | 公开(公告)日: | 2021-11-05 |
发明(设计)人: | 巩建光;刘凌灼;黄若文;吴昊;王福焱 | 申请(专利权)人: | 哈尔滨工程大学 |
主分类号: | G06F16/903 | 分类号: | G06F16/903;G06F16/901;G06F40/295;G06F40/205;G06N20/00 |
代理公司: | 北京八月瓜知识产权代理有限公司 11543 | 代理人: | 李斌 |
地址: | 150001 黑龙江省哈*** | 国省代码: | 黑龙江;23 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 随机 森林 改进 实体 解析 方法 | ||
1.一种基于随机森林改进的实体解析方法,其特征在于,包括以下步骤:
S1:提供一个包括k个决策树的随机森林F,其中k=1,2...N;提供若干个字符串Bi,其中i=1,2...N;并执行如下训练步骤:
S1.1:给定若干个样本数据表Ai,其中i=1,2...N;
S1.2:从Ap表中随机选择一组Xp元组,从Aq表中随机选择与所述Ap表可能匹配的一组Xq元组,将所述Xp与所述Xq配对组成样本S,其中:p∈i,q∈i,p≠q;
S1.3:检查所述Ap表与所述Aq表的模式,创建一组特性,使用所述特性将所述样本S中的元组对转换为特征向量;
S1.4:使用S1.3中的所述特征向量训练所述随机森林F;
S2:执行修剪步骤,所述修剪步骤包括:
S2.1:从所述k个决策树中提取m个决策树T1,T2...Tm,分别使用所述T1,T2...Tm执行每一个所述字符串Bi,得到输出C1,C2...Cm,所述m为正确解析所需要的最小的决策树数量,所述正确解析为所述随机森林F将所述字符串Bi正确解析为实体;
S2.2:建立集合I=C1∩C2∩...∩Cm;
S3:执行验证步骤,所述验证步骤包括:
S3.1:建立集合J=(C1∪C2∪...∪Cm)\(C1∩C2∩...∩Cm);
S3.2:从所述随机森林F中提取n个决策树R1,R2...Rn,使用所述R1,R2...Rn执行所述集合J,以生成集合K1,K2...Kn,且其中
S4:所述随机森林F输出实体解析结果为I∪K1∪K2∪...∪Kn。
2.根据权利要求1所述的一种基于随机森林改进的实体解析方法,其特征在于,S3.2中,(R1,R2...Rn)∪(T1,T2...Tm)=随机森林F。
3.根据权利要求1所述的一种基于随机森林改进的实体解析方法,其特征在于,S1.2中,在所述Aq表中构建反向索引,使用所述反向索引快速查找所述Aq表中与所述Xp元组共享x个符号的元组,组成Xq元组,其中x≥2。
4.根据权利要求2所述的一种基于随机森林改进的实体解析方法,其特征在于,S2中,在执行前对所述k个决策树进行修剪。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于哈尔滨工程大学,未经哈尔滨工程大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110160938.X/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种内置单车车把智能消毒装置及其使用方法
- 下一篇:一种种植牙用医疗器械