[发明专利]一种基于宽度随机森林的句法依存模型、训练方法和分析方法有效
申请号: | 201910494216.0 | 申请日: | 2019-06-06 |
公开(公告)号: | CN110458181B | 公开(公告)日: | 2021-12-24 |
发明(设计)人: | 刘鹏;张国鹏;孟磊;王学奎;魏卉子;景江波;鹿晓龙;叶帅 | 申请(专利权)人: | 中国矿业大学 |
主分类号: | G06F40/211 | 分类号: | G06F40/211 |
代理公司: | 南京瑞弘专利商标事务所(普通合伙) 32249 | 代理人: | 李悦声 |
地址: | 221116 江苏省*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 宽度 随机 森林 句法 依存 模型 训练 方法 分析 | ||
本发明公开了一种基于宽度随机森林的句法依存模型、训练方法和分析方法,适用于句法依存分析使用。将随机森林集成模型用于基于转移的句法依存分析中,进行局部依存构建预测,主要包括模型设计和模型训练两部分,模型设计部分主要包括特征映射层和增强层的设计、输出权重的设计两部分,通过设计随机森林和完全随机森林组成的神经网络节点,以自适应调节模型的宽度,通过节点的平均准确率得到本地权重计算输出权重,最后求解最终输出向量。其自动化程度高,通过训练自适应决定模型大小,理论分析容易、可解释性以及并行化能力强。
技术领域
本发明涉及一种句法依存模型、训练方法和分析方法,尤其适用于句法依存分析领域使用的一种基于宽度随机森林的句法依存模型、训练方法和分析方法。
背景技术
机器学习是当下最热门的研究领域之一,近年来,随着数据量的不断增长,机器学习的效率和准确率问题备受关注。集成学习一直被视为提升模型的准确率的有效方法,该方法在监督学习以及无监督学习下都得到广泛应用。
近期周志华(Zhi-Hua Zhou)等人提出一种基于随机森林之上的集成学习方法——深度森林(gcForest)。深度森林是一种卷积神经网络之外的深度模型,相对深度卷积神经网络在同样具备表示学习能力的同时具备以下优点:模型超参数少,训练简单;模型计算量小,可基于PC进行模型训练;模型可扩展,相对卷积神经网络更加易于并行化。深度森林(gcForest) 提出了全新的集成学习思路,在准确率方面取得不错的效果。但深度森林在多层级联结构下,深度森林的并行化会受到很大限制;另外深度森林在输出层通过求解每个输出向量的平均值得到最终输出向量,缺乏一定合理性。
句法依存分析对语义理解以及表达有着重要的意义,被视为自然语言处理(Natural Language Processing,NLP)的核心技术之一,同时由于句法的隐晦性、表达的不确定性等因素,句法依存分析又属于自然语言处理中最复杂的技术之一。
目前主流句法依存分析方法主要有两类,基于统计数学的概率式方法及基于深度学习的数据驱动式方法。在基于统计数学的方法中,目前公知技术认为上文同下文语义是无关的,提出基于词典的句法依存分析方法(Probabilistic Context-Free GrammarsLexicalized, PCFGs),合作和将概率分布作为先决条件,提出一种基于概率生成的句法依存分析方法,之后提出的最大熵模型、基于模板提取特征的句法依存分析、基于条件随机场(Conditional Random Field,CRF)的依存分析模型、基于全局线性模型的依存分析方法等均属于基于统计数学的句法依存分析。
基于深度学习的句法依存分析利用了深度网络强大的特征提取能力,再基于所提取的特征进行局部依存构建方法预测,相比早期的概率式方法,这种数据驱动式方法在大幅节省人工成本的同时,算法效果也取得了显著提升。Danqi Chen等人最早将深度学习成功应用于基于转移的句法依存分析,他们将上下文语境的词向量、词性标注等信息做为输入,利用多层感知器预测局部依存构建。基于Stack-LSTM的转移句法依存分析方法开始,逐步出现众多基于深度学习的句法依存分析工作,通过对输入句子进行编码并提取复杂的特征,再通过对特征提取的改进以提升句法依存分析的准确率。相似的利用LSTM作为特征提取器的工作如基于层次型LSTM的句法依存分析,适用于句法依存分析的注意力机制。相比于上述基于深度学习设计复杂的特征提取器而言,基于编码器-解码器的模型结构更加简洁和通用,在不需要专门设计特征提取结构的情况下能够很好的应用于各种句法依存分析任务。在上述基于深度学习的句法依存分析方法中,Stack-LSTM及SQ-decoder效果比较出色的具有代表性的两个。但是,这些方法多是通过增加深度模型的复杂度以提升特征表达能力,从而提升句法依存分析的效果。然而,随着深度模型复杂度的不断增加,带来了一些不可避免的负效果,典型问题包括模型训练效率不断降低以及可解释性不断变弱等。
发明内容
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国矿业大学,未经中国矿业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910494216.0/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种基于小样本的分类器训练方法
- 下一篇:基于相似子图匹配的在线马甲检测方法