[发明专利]一种基于管道模式的端到端英文篇章结构自动分析方法有效
申请号: | 201710460810.9 | 申请日: | 2017-06-18 |
公开(公告)号: | CN107273358B | 公开(公告)日: | 2020-06-05 |
发明(设计)人: | 鉴萍;张鹏程;黄河燕 | 申请(专利权)人: | 北京理工大学 |
主分类号: | G06F40/211 | 分类号: | G06F40/211;G06F40/30;G06K9/62 |
代理公司: | 北京理工正阳知识产权代理事务所(普通合伙) 11639 | 代理人: | 鲍文娟 |
地址: | 100081 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明涉及一种基于管道模式的端到端英文篇章结构自动分析方法,属于自然语言处理应用技术领域;本发明首先,对于显式篇章关系识别,针对传统方法采用词袋模型进行特征向量化的不足,提出了基于混合卷积树核和多项式核相结合的特征表示和计算方法,对句法特征和扁平特征分而治之;不仅可以大大降低特征向量维度,而且可以充分表达特征中的细节信息;其次,对于非显式篇章关系识别,针对语言学特征不能挖掘更深层次的语义以及传统方法带来的数据稀疏以及语义鸿沟的问题,通过仔细分析非显式篇章关系识别的特点,运用词对特征的优势,提出了基于深度学习的非显式篇章关系识别模型。对比现有技术,本发明提升了整个端到端系统的精度。 | ||
搜索关键词: | 一种 基于 管道 模式 端到端 英文 篇章 结构 自动 分析 方法 | ||
【主权项】:
一种基于管道模式的端到端英文篇章结构自动分析方法,其特征在于:包括训练步骤和实际分析方法,具体如下:训练步骤,具体步骤如下:步骤一、准备训练语料:采用现有的包含有篇章原文、篇章关系所对应的连接词、论元范围、篇章关系类别的篇章库作为训练语料,采用工具生成篇章原文的词性标注和句法分析;步骤二、Word Embedding表示:使用大规模语料库训练word2vec,将每个单词映射到向量空间的低维向量,从而表示每个单词的语义;步骤三、对显式篇章关系训练语料进行特征提取:分别就训练语料中显式篇章关系所包含的各部分:篇章连接词及其论元范围、显式篇章关系提取句法路径等句法特征以及词汇、词性等扁平特征,如果是单个词汇特征使用步骤二生成的Word Embedding表示;步骤四、核函数构建:基于步骤三提取的特征,分别构建相应的混合卷积树核与多项式核相结合的核函数;步骤五、SVM分类模型训练:基于步骤四构建的核函数采用SVM分类算法生成步骤三所提到的显式篇章关系所包含的各部分相对应的分类模型;步骤六、有用词对表构建:将训练语料中的所有非显式篇章关系作为抽取对象,从其论元对中分别抽取一词作为词对,统计各词对在各篇章类别中的信息增益值大小,选取高于阈值M的词对构建有用词对表;步骤七、用于非显式篇章关系识别的深度学习模型构建:利用双向LSTM分别对输入模型中的两个相邻句子进行编码,抽取词对,选取出现在步骤六所构建的有用词对表中的词对作为后续卷积神经网络的输入;步骤八、深度学习模型参数学习:将步骤一所提取的训练语料中的所有非显式篇章关系所对应的论元以及篇章关系抽取出来作为步骤七构建的深度学习模型的训练语料,进行参数学习;选取最优效果所对应的模型作为非显式篇章关系的分类模型;实际分析方法,具体步骤如下:步骤一、语料预处理:对输入的待识别篇章结构的英文文本进行分句操作,然后对每一句进行词性标注、句法分析,保存以供后续提取特征;步骤二、显式篇章关系识别:以篇章连接词为主线,分别提取显式篇章关系所包含的各部分所需特征,并使用训练步骤五生成的SVM分类模型,获取正确的篇章连接词以及其对应的论元范围和显式篇章关系类别,并将以上三部分的最终结果组合成结构体保存;步骤三、非显式篇章关系识别:基于训练步骤八最终确定的深度学习模型对步骤一所保存文本中不属于显式篇章关系的所有相邻句对进行非显式篇章关系识别,并确定其论元范围,以结构体形式保存;步骤四、识别完成:将步骤二与步骤三所保存结构体组合输出至文本中,作为输出。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京理工大学,未经北京理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201710460810.9/,转载请声明来源钻瓜专利网。