[发明专利]一种基于梯度增强决策树的上下位词关系识别方法有效

专利信息
申请号: 201911086620.0 申请日: 2019-11-08
公开(公告)号: CN110968665B 公开(公告)日: 2022-09-23
发明(设计)人: 潘翔;阮义彰 申请(专利权)人: 浙江工业大学
主分类号: G06F16/33 分类号: G06F16/33;G06F16/35;G06F40/289;G06K9/62
代理公司: 杭州之江专利事务所(普通合伙) 33216 代理人: 张慧英
地址: 310014 浙*** 国省代码: 浙江;33
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 梯度 增强 决策树 下位 关系 识别 方法
【权利要求书】:

1.一种基于梯度增强决策树的上下位词关系识别方法,其特征在于,包括如下步骤:

(1)随机错位样本训练集的构建;

(2)基于路径的样本训练集的构建;

(3)根据构建得到的随机错位样本训练集、基于路径的样本训练集对半监督联合梯度增强决策树模型进行训练,并利用训练好的模型进行上下位词关系识别;其中,半监督联合梯度增强决策树训练方法如下:

输入:文本语料库T,预先训练的词嵌入和最大迭代I;

(i)对T进行数据预处理,提取两类训练样本Xp和Xd,其中Xp为基于路径的样本训练集,Xd为随机错位样本训练集;

(ii)利用词嵌入W将每个训练样本转换成向量表示;

(iii)设和X′p表示路径样本,X′d表示随机错位样本;

(iv)分别使用X′p∪X′p和Xd∪X′d用训练两个分类器f1和f2

(v)对未标记样本进行预测,选择置信度高的正性样本对新的训练样本X′p和X′d进行扩展;

(vi)循环步骤(iv)与步骤(v),直到X′p和X′d不再出现新的已标注样本;

输出:两个分类器和测试样本的预测标签。

2.根据权利要求1所述的一种基于梯度增强决策树的上下位词关系识别方法,其特征在于:所述的随机错位样本训练集的构建方法为:

(1.1)基于Alibaba Word Segmenter词法分析系统对语料文本进行分词;并从已有的词库中提取上下位词对进行匹配,结合词对之间的文本构造正样本;

(1.2)将成功匹配的词对上下位词错位,作为负样本词对;采用错位词对在文本进行匹配,构建随机错位负样本;

(1.3)将上述步骤得到的正负样本结合,构建得到随机错位样本训练集。

3.根据权利要求1所述的一种基于梯度增强决策树的上下位词关系识别方法,其特征在于:所述基于路径的样本训练集的构建方法为:

(2.1)将语料文本碎片化,记作Ssplit=Split({S1,S2,S3,…,Sn});

(2.2)取随机错位样本中的错位词对,与语料文本进行匹配,得到含错位上下位词对的句子集合Sx,y={Sx1,y1,Sx2,y2,Sx3,y3,…,Sxn,yn};

(2.3)将错位词对之间的路径取出,记作P={P1,P2,Pi,…,Pn};

(2.4)将这些路径提取后与语料碎片{S1,S2,Si,…,Sn}进行匹配,匹配成功后查询碎片原型句,取路径Pi前后第一个但不是原有错位词对的词作为基于路径的负样本词对;与正样本结合得到基于路径的样本训练集。

4.根据权利要求3所述的一种基于梯度增强决策树的上下位词关系识别方法,其特征在于:所述的语料碎片化采用Ngarm算法,枚举所有连续的分词构成的句子碎片,每一个分词记作长度1,取路径长度不大于5的片段。

5.根据权利要求1所述的一种基于梯度增强决策树的上下位词关系识别方法,其特征在于:所述的半监督联合梯度增强决策树模型为加法模型,学习算法为前向分步算法,基函数为CART树;损失函数是均方误差函数损失,即:

则负梯度:

其中,y-f(x)即为残差;输出是:分类树F(x)。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江工业大学,未经浙江工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201911086620.0/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top