[发明专利]基于生成对抗网络的关系抽取方法有效
申请号: | 201711063765.X | 申请日: | 2017-11-02 |
公开(公告)号: | CN107943784B | 公开(公告)日: | 2020-12-29 |
发明(设计)人: | 刘兵;蒋方玲;蒋黎明;龚向坚 | 申请(专利权)人: | 南华大学 |
主分类号: | G06F40/211 | 分类号: | G06F40/211;G06N5/02 |
代理公司: | 长沙永星专利商标事务所(普通合伙) 43001 | 代理人: | 周咏;米中业 |
地址: | 421001 湖*** | 国省代码: | 湖南;43 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 生成 对抗 网络 关系 抽取 方法 | ||
本发明公开了一种基于生成对抗网络的关系抽取方法,包括准备训练文本和待分析文本;对训练文本和待分析文本进行分词和句法分析;将得到的分词和句法分析结果转换为句法分析树图像;对生成器和判别器进行训练得到生成对抗网络模型;采用生成对抗网络对待分析文本进行关系抽取。本发明简化了其他基于深度学习方法的输入数据处理过程,放弃了相对繁琐的向量化过程,输入数据处理相对简单,利用的特征相对目前基于深度学习的关系抽取方法更丰富,关系识别过程模拟人的思维模式,将生成对抗网络应用到关系抽取中,充分发挥生成对抗网络的自动学习图像中特征的能力,提高关系抽取的效果,而且方法简单可靠。
技术领域
本发明具体涉及一种基于生成对抗网络的关系抽取方法。
背景技术
随着信息技术的迅速发展,互联网上的资源爆炸式增长。互联网中社交媒体数据、百科、论坛、专业文献、新闻等非结构化文本数据包含了丰富的领域知识信息。众多领域专家利用互联网上的文本数据构建结构化的领域知识库,以指导领域内业务问题的推理决策。知识库包含了领域相关实体以及实体间的关系,利用关系抽取技术从海量非结构化的文本中识别抽取领域实体的语义关系是构建知识库的关键步骤。
目前关系抽取的方法主要分为两类:基于规则的方法以及基于机器学习的方法。基于规则的方法主要利用人类的经验和总结设置特定的规则,抽取文本中的实体关系。基于规则的方法规则的设定费时费力,需要专业的领域人才设置规则。规则在不同领域数据上的迁移能力较弱,需要针对每一个领域数据编写适当的规则。基于机器学习的方法目前主要有基于特征的方法、基于核函数的方法、基于深度学习的方法。基于特征的方法和基于核函数的方法需要人工选择大量对关系抽取有辨别性的特征,定义特征模板,抽取特征,工作相对繁琐。基于深度学习的方法将文本特征信息映射为向量,利用CNN、RNN等模型学习实体间关系的特征进行识别分类。相对于传统方法,基于深度学习的方法模拟人的思维方式,性能上有一定的提升。但其特征的向量化过程相对复杂,同时普遍没有考虑对关系抽取有一定影响的文本整体结构信息。
发明内容
本发明的目的在于提供一种方法简单可靠、将对关系抽取有判别性的特征图像化处理的基于生成对抗网络的关系抽取方法。
本发明提供的这种基于生成对抗网络的关系抽取方法,包括如下步骤:
S1.准备训练文本和待分析文本;所述训练文本中的实体和实体间的关系已经标注,待分析文本中的实体已经进行了标注;
S2.采用自然语言处理工具对训练文本和待分析文本进行分词和句法分析;
S3.采用图形绘制工具将步骤S2得到的分词和句法分析结果转换为句法分析树图像;
S4.采用步骤S3获取的训练文本的句法分析树图像和标注的文本中实体间的关系,对生成器和判别器进行相互竞争的迭代训练,从而得到训练好的生成对抗网络模型;
S5.采用步骤S4得到的生成对抗网络,输入步骤S3获取的待分析文本的句法分析树图像,对待分析文本进行关系抽取。
步骤S2所述的自然语言处理工具为Stanford Parser或者具有类似功能的自然语言处理工具。
步骤S3所述的图形绘制工具为Graphviz或者具有类似功能的图形绘制工具。
步骤S4所述的对生成器和判别器进行相互竞争的迭代训练,具体为采用随机梯度下降法对生成器和判别器进行相互竞争的迭代训练。
所述的采用随机梯度下降法对生成器和判别器进行相互竞争的迭代训练,具体为采用如下步骤进行训练:
A.生成m组训练文本及相应的句法分析树图像;
B.初始化判别器D和生成器G,并且每一次迭代中均包括依次判别器D的训练和生成器G的训练;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南华大学,未经南华大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711063765.X/2.html,转载请声明来源钻瓜专利网。