[发明专利]一种基于随机森林改进的实体解析方法有效

专利信息
申请号: 202110160938.X 申请日: 2021-02-05
公开(公告)号: CN112860959B 公开(公告)日: 2021-11-05
发明(设计)人: 巩建光;刘凌灼;黄若文;吴昊;王福焱 申请(专利权)人: 哈尔滨工程大学
主分类号: G06F16/903 分类号: G06F16/903;G06F16/901;G06F40/295;G06F40/205;G06N20/00
代理公司: 北京八月瓜知识产权代理有限公司 11543 代理人: 李斌
地址: 150001 黑龙江省哈*** 国省代码: 黑龙江;23
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 随机 森林 改进 实体 解析 方法
【权利要求书】:

1.一种基于随机森林改进的实体解析方法,其特征在于,包括以下步骤:

S1:提供一个包括k个决策树的随机森林F,其中k=1,2...N;提供若干个字符串Bi,其中i=1,2...N;并执行如下训练步骤:

S1.1:给定若干个样本数据表Ai,其中i=1,2...N;

S1.2:从Ap表中随机选择一组Xp元组,从Aq表中随机选择与所述Ap表可能匹配的一组Xq元组,将所述Xp与所述Xq配对组成样本S,其中:p∈i,q∈i,p≠q;

S1.3:检查所述Ap表与所述Aq表的模式,创建一组特性,使用所述特性将所述样本S中的元组对转换为特征向量;

S1.4:使用S1.3中的所述特征向量训练所述随机森林F;

S2:执行修剪步骤,所述修剪步骤包括:

S2.1:从所述k个决策树中提取m个决策树T1,T2...Tm,分别使用所述T1,T2...Tm执行每一个所述字符串Bi,得到输出C1,C2...Cm,所述m为正确解析所需要的最小的决策树数量,所述正确解析为所述随机森林F将所述字符串Bi正确解析为实体;

S2.2:建立集合I=C1∩C2∩...∩Cm

S3:执行验证步骤,所述验证步骤包括:

S3.1:建立集合J=(C1∪C2∪...∪Cm)\(C1∩C2∩...∩Cm);

S3.2:从所述随机森林F中提取n个决策树R1,R2...Rn,使用所述R1,R2...Rn执行所述集合J,以生成集合K1,K2...Kn,且其中

S4:所述随机森林F输出实体解析结果为I∪K1∪K2∪...∪Kn

2.根据权利要求1所述的一种基于随机森林改进的实体解析方法,其特征在于,S3.2中,(R1,R2...Rn)∪(T1,T2...Tm)=随机森林F。

3.根据权利要求1所述的一种基于随机森林改进的实体解析方法,其特征在于,S1.2中,在所述Aq表中构建反向索引,使用所述反向索引快速查找所述Aq表中与所述Xp元组共享x个符号的元组,组成Xq元组,其中x≥2。

4.根据权利要求2所述的一种基于随机森林改进的实体解析方法,其特征在于,S2中,在执行前对所述k个决策树进行修剪。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于哈尔滨工程大学,未经哈尔滨工程大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202110160938.X/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top