[发明专利]一种基于梯度增强决策树的上下位词关系识别方法有效

申请号：	201911086620.0	申请日：	2019-11-08
公开（公告）号：	CN110968665B	公开（公告）日：	2022-09-23
发明（设计）人：	潘翔;阮义彰	申请（专利权）人：	浙江工业大学
主分类号：	G06F16/33	分类号：	G06F16/33;G06F16/35;G06F40/289;G06K9/62
代理公司：	杭州之江专利事务所(普通合伙) 33216	代理人：	张慧英
地址：	310014 浙***	国省代码：	浙江;33
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于梯度增强决策树下位关系识别方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于梯度增强决策树的上下位词关系识别方法，其特征在于，包括如下步骤：

(1)随机错位样本训练集的构建；

(2)基于路径的样本训练集的构建；

(3)根据构建得到的随机错位样本训练集、基于路径的样本训练集对半监督联合梯度增强决策树模型进行训练，并利用训练好的模型进行上下位词关系识别；其中，半监督联合梯度增强决策树训练方法如下：

输入：文本语料库T，预先训练的词嵌入和最大迭代I；

(i)对T进行数据预处理，提取两类训练样本X_p和X_d，其中X_p为基于路径的样本训练集，X_d为随机错位样本训练集；

(ii)利用词嵌入W将每个训练样本转换成向量表示；

(iii)设和X′_p表示路径样本，X′_d表示随机错位样本；

(iv)分别使用X′_p∪X′_p和X_d∪X′_d用训练两个分类器f₁和f₂；

(v)对未标记样本进行预测，选择置信度高的正性样本对新的训练样本X′_p和X′_d进行扩展；

(vi)循环步骤(iv)与步骤(v)，直到X′_p和X′_d不再出现新的已标注样本；

输出：两个分类器和测试样本的预测标签。

2.根据权利要求1所述的一种基于梯度增强决策树的上下位词关系识别方法，其特征在于：所述的随机错位样本训练集的构建方法为：

(1.1)基于Alibaba Word Segmenter词法分析系统对语料文本进行分词；并从已有的词库中提取上下位词对进行匹配，结合词对之间的文本构造正样本；

(1.2)将成功匹配的词对上下位词错位，作为负样本词对；采用错位词对在文本进行匹配，构建随机错位负样本；

(1.3)将上述步骤得到的正负样本结合，构建得到随机错位样本训练集。

3.根据权利要求1所述的一种基于梯度增强决策树的上下位词关系识别方法，其特征在于：所述基于路径的样本训练集的构建方法为：

(2.1)将语料文本碎片化，记作S_split＝Split({S₁，S₂，S₃，…，S_n})；

(2.2)取随机错位样本中的错位词对，与语料文本进行匹配，得到含错位上下位词对的句子集合S_x,y＝{S_x1,y1，S_x2,y2，S_x3,y3，…，S_xn,yn}；

(2.3)将错位词对之间的路径取出，记作P＝{P₁，P₂，P_i,…,P_n}；

(2.4)将这些路径提取后与语料碎片{S₁，S₂，S_i，…，S_n}进行匹配，匹配成功后查询碎片原型句，取路径P_i前后第一个但不是原有错位词对的词作为基于路径的负样本词对；与正样本结合得到基于路径的样本训练集。

4.根据权利要求3所述的一种基于梯度增强决策树的上下位词关系识别方法，其特征在于：所述的语料碎片化采用Ngarm算法，枚举所有连续的分词构成的句子碎片，每一个分词记作长度1，取路径长度不大于5的片段。

5.根据权利要求1所述的一种基于梯度增强决策树的上下位词关系识别方法，其特征在于：所述的半监督联合梯度增强决策树模型为加法模型，学习算法为前向分步算法，基函数为CART树；损失函数是均方误差函数损失，即：

则负梯度：

其中，y-f(x)即为残差；输出是：分类树F(x)。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于浙江工业大学，未经浙江工业大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201911086620.0/1.html，转载请声明来源钻瓜专利网。

专利分类

专利文献下载