[发明专利]一种融合多句法结构的语义关系分类方法有效
申请号: | 201810614041.8 | 申请日: | 2018-06-14 |
公开(公告)号: | CN108875000B | 公开(公告)日: | 2021-12-28 |
发明(设计)人: | 郝志峰;陈培辉;蔡瑞初;温雯;王丽娟;陈炳丰 | 申请(专利权)人: | 广东工业大学 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F40/30;G06F40/211;G06K9/62 |
代理公司: | 广州市红荔专利代理有限公司 44214 | 代理人: | 吴伟文 |
地址: | 510006 *** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 融合 句法 结构 语义 关系 分类 方法 | ||
本发明涉及自然语言处理技术领域,涉及一种融合多句法结构的语义关系分类方法,包括以下步骤,先对文本序列进行数据预处理;然后对文本序列的向量进行双向编码,利用注意力机制对编码信息进行加权学习,通过CRF对加权后的编码信息进行双向解码,获取文本序列上的实体标签信息;然后构造联合向量,构造融合多句法的复杂网络,利用共享参数进行端到端的训练,获取三元组上的隐状态并进行拼接,经线性变换后输出语义关系类别。本发明基于叠层的循环神经网络模型,将多种句法结构进行融合,解决了单一句法结构模型无法有效适应其他句法结构的问题,从而能有效处理不同的句法结构,提高了模型的鲁邦性,并提升了分类效率。
技术领域
本发明涉及自然语言处理技术领域,更具体地说,涉及一种融合多句法结 构的语义关系分类方法。
背景技术
随着互联网发展,非结构化的文本正在以指数级爆发式增长,通过利用自 动化抽取工具将非结构化的文本转化为结构化的知识,将这些结构化知识应用 于检索系统和知识库的构建中,能够有效帮助人们提高工作效率。语义关系分 类是其中的重要技术手段之一。
语义关系分类包含实体识别和关系分类两个子任务,对应的方法分别是基 于序列标注和基于句法结构。已有的语义关系分类过程主要采用单一特定的句 法结构,而单一特定的句法结构模型无法有效处理其他句法结构的问题。比如, 对于SDP结构的模型,在处理其他结构如SubTree和FullTree结构时会存在信 息丢失,但简洁的结构在训练速度上较快;而SubTree和FullTree结构在文本 和结构信息上更丰富,但训练速度较慢。目前没有一个具备鲁棒性的方法来兼 具这三者的优点,从而达到一个更加稳定高效的分类结果。
随着深度学习的发展,通过利用神经网络模型,借助共享参数,构造大型 学习矩阵,利用反向传播的机制来优化模型,在效果方面已经超过了传统的机 器学习方法,因此基于深度学习的方法成为当下的主流做法。我们的目标就是 利用神经网络融合不同的句法结构,从而为输入的文本输出其语义关系。但不 同的句法结构具备不同的形式,必须将其处理成具备某种共性的数据,并转化 为向量的形式输入到网络中进行训练。因此,如何将多种不同的句法结构融合 到一个网络中,使得网络具备自适应不同句法结构的鲁棒能力,具备一定的研 究价值和意义。
发明内容
有鉴于此,本发明提供了一种融合多句法结构的语义关系分类方法,以解 决现有技术中没办法有效融合多种句法结构信息的缺陷。
一种融合多句法结构的语义关系分类方法,其特征在于,包括以下步骤:
S1、对文本序列进行数据预处理,获取该文本序列S={S1,S2,...,Sn}的词性标 签P={P1,P2,...,Pn}和依赖关系标签D={D1,D2,...,Dn};在步骤S1中,对要输入网 络的文本序列S={S1,S2,...,Sn}进行预处理,通过利用Stanford解析工具获取该文 本序列的词性标签P={P1,P2,...,Pn}和依赖关系标签D={D1,D2,...,Dn},文本序列 S={S1,S2,...,Sn}中每一个字符Sn对应一个词性标签Pn和关系标签Dn,均作为网络 训练的数据输入;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广东工业大学,未经广东工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810614041.8/2.html,转载请声明来源钻瓜专利网。