[发明专利]一种基于层次深度语义的隐式篇章关系分析方法有效
申请号: | 201610739516.7 | 申请日: | 2016-08-26 |
公开(公告)号: | CN106326212B | 公开(公告)日: | 2019-04-16 |
发明(设计)人: | 鉴萍;佘萧寒;黄河燕 | 申请(专利权)人: | 北京理工大学 |
主分类号: | G06F17/27 | 分类号: | G06F17/27;G06F16/35;G06F16/36 |
代理公司: | 北京理工正阳知识产权代理事务所(普通合伙) 11639 | 代理人: | 王民盛 |
地址: | 100081 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 隐式 关系分析 训练语料 语义 层次深度 类别标签 标注 神经网络训练 应用技术领域 自然语言处理 离散特征 模型参数 特征选取 信息增益 语义向量 语义信息 初始化 关系论 分类 拟合 语料 筛选 分析 学习 | ||
本发明涉及一种基于层次深度语义的隐式篇章关系分析方法,属于自然语言处理应用技术领域。包括以下步骤:首先结合已标注和未标注语料,扩充训练语料规模,避免训练语料规模过小带来欠学习问题;然后基于一定规则初始化训练语料各层次的深度语义向量,通过信息增益值的大小筛选出有助于分类的词对,将其作为后续特征选取依据;最后设计一种打分函数,将待分类篇章关系论元对的多层次的深度语义信息相结合,利用神经网络训练模型参数并拟合隐式篇章关系类别标签,找到使性能达到最优的模型完成隐式篇章关系分析。弥补了基于离散特征的传统方法导致的错判;提升隐式篇章关系类别标签的分析精度;使用户能更快速而准确地获得隐式篇章关系的分析结果。
技术领域
本发明涉及一种隐式篇章关系分析方法,特别涉及一种基于层次深度语义的隐式篇章关系分析方法,属于自然语言处理应用技术领域。
背景技术
作为自然语言处理应用技术领域中的一项重要任务,篇章关系分析一直为学者们所不懈研究着,并广泛于统计机器翻译、信息抽取、情感分析等领域发挥重要作用。篇章关系建立在词法和句法分析之上,旨在篇章级别对没有篇章连接词连接的句际关系进行识别与归类,其中又尤以缺乏篇章连接词连接的隐式篇章关系分析为其重点与难点。随着自然语言的语义分析逐渐成为学术和应用的主流,针对一篇文章,如何高效正确地理解其结构与内容,引起了越来越多研究人员的重视。这种趋势从隐式篇章关系分析两次被国际会议CoNLL(Conference on Computational Natural Language Learning)选作共享任务中便可看出。如今又恰逢大数据时代,海量且无结构的信息层出不穷,将这些数据应用在隐式篇章关系分析上,能对现有的结果有较大的提升。因此,我们需要一种基于层次深度语义的方法,帮助我们结合已标注语料和未标注语料,训练出一个高效的隐式篇章关系分析模型,这是一项既有学术意义又有实用价值的研究课题。
由于篇章连接词的缺失,整个隐式篇章关系的识别与分类过程,便从单个篇章连接词的语义分析转变为篇章论元结构的语义分析。目前,关于隐式篇章关系分析方面的研究并不充分,仍处于探索阶段,而没有篇章连接词这一特征的帮助,也使得隐式篇章关系分析的研究更加难以深入。主流的隐式篇章关系分析方法一方面着眼于使用离散的词对特征表示可能的关系类型,如Pitler等人在2009年ACL会议上发表的“Automatic senseprediction for implicit discourse relations in text”一文中所采用的综合多种离散的语言学特征训练隐式篇章关系分类器的方法,其算法简单易行,但常受累于数据稀疏;另一方面,使用诸如词向量等浅层语义表征隐式篇章关系论元对,从而使用连续且维度较少的特征代替原有的离散特征,如Ji和Eisenstein在2016年NAACL会议上发表的“A LatentVariable Recurrent Neural Networkfor Discourse Relation Language Models”一文中所提出的,利用RNN向量化表征隐式篇章关系句际信息及上下文信息,其所包含的特征信息更为丰富,却也因现有的隐式篇章关系标注语料缺乏而无法拟合正确结果。
上述已有的基于离散特征或深度学习的方法虽然一定程度上解决了隐式篇章关系分析这一问题,然而或因数据稀疏而表现欠佳,或受限于现有的标注数据规模,其性能的改进还存在很大空间。本发明的目的是致力于解决上述主流方法所存在的缺陷,结合两方面方法的优势,提出一种基于层次深度语义的隐式篇章关系分析方法。
发明内容
本发明的目的是针对现有的隐式篇章关系分析方法由于数据规模和模型本身为主的原因所产生的过拟合和数据稀疏技术问题,即解决现有方法不能有效利用隐式篇章关系论元对所包含的深度语义信息的问题,提出一种基于层次深度语义的隐式篇章关系分析方法。
为实现上述目的,本发明所采用的技术方案如下:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京理工大学,未经北京理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201610739516.7/2.html,转载请声明来源钻瓜专利网。