[发明专利]一种基于梯度增强决策树的上下位词关系识别方法有效
申请号: | 201911086620.0 | 申请日: | 2019-11-08 |
公开(公告)号: | CN110968665B | 公开(公告)日: | 2022-09-23 |
发明(设计)人: | 潘翔;阮义彰 | 申请(专利权)人: | 浙江工业大学 |
主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F16/35;G06F40/289;G06K9/62 |
代理公司: | 杭州之江专利事务所(普通合伙) 33216 | 代理人: | 张慧英 |
地址: | 310014 浙*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 梯度 增强 决策树 下位 关系 识别 方法 | ||
1.一种基于梯度增强决策树的上下位词关系识别方法,其特征在于,包括如下步骤:
(1)随机错位样本训练集的构建;
(2)基于路径的样本训练集的构建;
(3)根据构建得到的随机错位样本训练集、基于路径的样本训练集对半监督联合梯度增强决策树模型进行训练,并利用训练好的模型进行上下位词关系识别;其中,半监督联合梯度增强决策树训练方法如下:
输入:文本语料库T,预先训练的词嵌入和最大迭代I;
(i)对T进行数据预处理,提取两类训练样本Xp和Xd,其中Xp为基于路径的样本训练集,Xd为随机错位样本训练集;
(ii)利用词嵌入W将每个训练样本转换成向量表示;
(iii)设和X′p表示路径样本,X′d表示随机错位样本;
(iv)分别使用X′p∪X′p和Xd∪X′d用训练两个分类器f1和f2;
(v)对未标记样本进行预测,选择置信度高的正性样本对新的训练样本X′p和X′d进行扩展;
(vi)循环步骤(iv)与步骤(v),直到X′p和X′d不再出现新的已标注样本;
输出:两个分类器和测试样本的预测标签。
2.根据权利要求1所述的一种基于梯度增强决策树的上下位词关系识别方法,其特征在于:所述的随机错位样本训练集的构建方法为:
(1.1)基于Alibaba Word Segmenter词法分析系统对语料文本进行分词;并从已有的词库中提取上下位词对进行匹配,结合词对之间的文本构造正样本;
(1.2)将成功匹配的词对上下位词错位,作为负样本词对;采用错位词对在文本进行匹配,构建随机错位负样本;
(1.3)将上述步骤得到的正负样本结合,构建得到随机错位样本训练集。
3.根据权利要求1所述的一种基于梯度增强决策树的上下位词关系识别方法,其特征在于:所述基于路径的样本训练集的构建方法为:
(2.1)将语料文本碎片化,记作Ssplit=Split({S1,S2,S3,…,Sn});
(2.2)取随机错位样本中的错位词对,与语料文本进行匹配,得到含错位上下位词对的句子集合Sx,y={Sx1,y1,Sx2,y2,Sx3,y3,…,Sxn,yn};
(2.3)将错位词对之间的路径取出,记作P={P1,P2,Pi,…,Pn};
(2.4)将这些路径提取后与语料碎片{S1,S2,Si,…,Sn}进行匹配,匹配成功后查询碎片原型句,取路径Pi前后第一个但不是原有错位词对的词作为基于路径的负样本词对;与正样本结合得到基于路径的样本训练集。
4.根据权利要求3所述的一种基于梯度增强决策树的上下位词关系识别方法,其特征在于:所述的语料碎片化采用Ngarm算法,枚举所有连续的分词构成的句子碎片,每一个分词记作长度1,取路径长度不大于5的片段。
5.根据权利要求1所述的一种基于梯度增强决策树的上下位词关系识别方法,其特征在于:所述的半监督联合梯度增强决策树模型为加法模型,学习算法为前向分步算法,基函数为CART树;损失函数是均方误差函数损失,即:
则负梯度:
其中,y-f(x)即为残差;输出是:分类树F(x)。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江工业大学,未经浙江工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911086620.0/1.html,转载请声明来源钻瓜专利网。
- 上一篇:电动晾衣架的制造设备
- 下一篇:数字资产交易的通信方法、装置及系统