[发明专利]基于生成对抗网络的关系抽取方法有效

申请号：	201711063765.X	申请日：	2017-11-02
公开（公告）号：	CN107943784B	公开（公告）日：	2020-12-29
发明（设计）人：	刘兵;蒋方玲;蒋黎明;龚向坚	申请（专利权）人：	南华大学
主分类号：	G06F40/211	分类号：	G06F40/211;G06N5/02
代理公司：	长沙永星专利商标事务所(普通合伙) 43001	代理人：	周咏;米中业
地址：	421001 湖***	国省代码：	湖南;43
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于生成对抗网络关系抽取方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开了一种基于生成对抗网络的关系抽取方法，包括准备训练文本和待分析文本；对训练文本和待分析文本进行分词和句法分析；将得到的分词和句法分析结果转换为句法分析树图像；对生成器和判别器进行训练得到生成对抗网络模型；采用生成对抗网络对待分析文本进行关系抽取。本发明简化了其他基于深度学习方法的输入数据处理过程，放弃了相对繁琐的向量化过程，输入数据处理相对简单，利用的特征相对目前基于深度学习的关系抽取方法更丰富，关系识别过程模拟人的思维模式，将生成对抗网络应用到关系抽取中，充分发挥生成对抗网络的自动学习图像中特征的能力，提高关系抽取的效果，而且方法简单可靠。

技术领域

本发明具体涉及一种基于生成对抗网络的关系抽取方法。

背景技术

随着信息技术的迅速发展，互联网上的资源爆炸式增长。互联网中社交媒体数据、百科、论坛、专业文献、新闻等非结构化文本数据包含了丰富的领域知识信息。众多领域专家利用互联网上的文本数据构建结构化的领域知识库，以指导领域内业务问题的推理决策。知识库包含了领域相关实体以及实体间的关系，利用关系抽取技术从海量非结构化的文本中识别抽取领域实体的语义关系是构建知识库的关键步骤。

目前关系抽取的方法主要分为两类：基于规则的方法以及基于机器学习的方法。基于规则的方法主要利用人类的经验和总结设置特定的规则，抽取文本中的实体关系。基于规则的方法规则的设定费时费力，需要专业的领域人才设置规则。规则在不同领域数据上的迁移能力较弱，需要针对每一个领域数据编写适当的规则。基于机器学习的方法目前主要有基于特征的方法、基于核函数的方法、基于深度学习的方法。基于特征的方法和基于核函数的方法需要人工选择大量对关系抽取有辨别性的特征，定义特征模板，抽取特征，工作相对繁琐。基于深度学习的方法将文本特征信息映射为向量，利用CNN、RNN等模型学习实体间关系的特征进行识别分类。相对于传统方法，基于深度学习的方法模拟人的思维方式，性能上有一定的提升。但其特征的向量化过程相对复杂，同时普遍没有考虑对关系抽取有一定影响的文本整体结构信息。

发明内容

本发明的目的在于提供一种方法简单可靠、将对关系抽取有判别性的特征图像化处理的基于生成对抗网络的关系抽取方法。

本发明提供的这种基于生成对抗网络的关系抽取方法，包括如下步骤：

S1.准备训练文本和待分析文本；所述训练文本中的实体和实体间的关系已经标注，待分析文本中的实体已经进行了标注；

S2.采用自然语言处理工具对训练文本和待分析文本进行分词和句法分析；

S3.采用图形绘制工具将步骤S2得到的分词和句法分析结果转换为句法分析树图像；

S4.采用步骤S3获取的训练文本的句法分析树图像和标注的文本中实体间的关系，对生成器和判别器进行相互竞争的迭代训练，从而得到训练好的生成对抗网络模型；

S5.采用步骤S4得到的生成对抗网络，输入步骤S3获取的待分析文本的句法分析树图像，对待分析文本进行关系抽取。

步骤S2所述的自然语言处理工具为Stanford Parser或者具有类似功能的自然语言处理工具。

步骤S3所述的图形绘制工具为Graphviz或者具有类似功能的图形绘制工具。

步骤S4所述的对生成器和判别器进行相互竞争的迭代训练，具体为采用随机梯度下降法对生成器和判别器进行相互竞争的迭代训练。

所述的采用随机梯度下降法对生成器和判别器进行相互竞争的迭代训练，具体为采用如下步骤进行训练：