[发明专利]一种基于随机森林改进的实体解析方法有效
申请号: | 202110160938.X | 申请日: | 2021-02-05 |
公开(公告)号: | CN112860959B | 公开(公告)日: | 2021-11-05 |
发明(设计)人: | 巩建光;刘凌灼;黄若文;吴昊;王福焱 | 申请(专利权)人: | 哈尔滨工程大学 |
主分类号: | G06F16/903 | 分类号: | G06F16/903;G06F16/901;G06F40/295;G06F40/205;G06N20/00 |
代理公司: | 北京八月瓜知识产权代理有限公司 11543 | 代理人: | 李斌 |
地址: | 150001 黑龙江省哈*** | 国省代码: | 黑龙江;23 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 随机 森林 改进 实体 解析 方法 | ||
本发明提供了一种基于随机森林改进的实体解析方法,包括以下步骤:S1:提供一个包括k个决策树的随机森林F,提供若干个字符串Bi;S2:执行修剪步骤包括:S2.1:从k个决策树中提取m个决策树Tm,分别使用Tm执行每一个字符串Bi,得到输出Cm;S2.2:建立集合I=C1∩C2∩...∩Cm;S3:执行验证步骤包括:S3.1:建立集合J=(C1∪C2∪...∪Cm)\(C1∩C2∩...∩Cm);S3.2:从随机森林F中提取n个决策树Rn,使用Rn执行集合J,以生成集合Kn;S4:随机森林F输出结果为I∪K1∪K2∪...∪Kn。本发明通过将执行每一个决策树分解为在修剪步骤中执行树的子集,然后在验证步骤中执行剩余的树,通过树的重用计算简化执行决策树集,以大幅缩短时间。
技术领域
本发明涉及数据处理技术领域,尤其是涉及一种基于随机森林改进的实体解析方法。
背景技术
在数据集中,数据所指向的现实世界中的对象,一般称之为实体。对于同一实体,在不同甚至同一数据集中,可能存在多种不同的表现或描述形式,当将多个不同来源的数据集进行合并以分析处理时,这些对于同一实体的描述则会混杂在一起,造成一定程度的重复现象。实体解析,就是对数据集中的多种不同的描述进行识别、连接,确定哪些描述映射于现实世界中的同一实体的过程。实体解析是数据预处理过程中的一个重要步骤,主要用于解决数据的重复冗余等质量问题。
目前的实体解析是指不同的数据对同一个事物即实体可能会有不同的描述(这里的描述包括数据格式、表示方法等),但它们通常在描述存储的过程中可能会出现排版或者错别字等错误,增加我们数据处理解析的时间并且容易造成匹配的冗余无法精准的得到我们想要的数据集。
发明内容
本发明的目的在于提供一种基于随机森林改进的实体解析方法,能够通过随机森林对字符串与实体的匹配进行相似度的连接,提高对数据集匹配的准确性和效率,克服现有的实体解析技术的不足。
本发明提供的一种基于随机森林改进的实体解析方法,包括以下步骤:
S1:提供一个包括k个决策树的随机森林F,其中k=1,2...N;提供若干个字符串Bi,其中i=1,2...N;并执行如下训练步骤:
S1.1:给定若干个样本数据表Ai,其中i=1,2...N;
S1.2:从Ap表中随机选择一组Xp元组,从Aq表中随机选择与所述Ap表可能匹配的一组Xq元组,将所述Xp与所述Xq配对组成样本S,其中:p∈i,q∈i,p≠q;
S1.3:检查所述Ap表与所述Aq表的模式,创建一组特性,使用所述特性将所述样本S中的元组对转换为特征向量;
S1.4:使用S1.3中的所述特征向量训练所述随机森林F;
S2:执行修剪步骤,所述修剪步骤包括:
S2.1:从所述k个决策树中提取m个决策树T1,T2...Tm,分别使用所述T1,T2...Tm执行每一个所述字符串Bi,得到输出C1,C2...Cm,所述m为正确解析所需要的最小的决策树数量,所述正确解析为所述随机森林F将所述字符串Bi正确解析为实体;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于哈尔滨工程大学,未经哈尔滨工程大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110160938.X/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种内置单车车把智能消毒装置及其使用方法
- 下一篇:一种种植牙用医疗器械