[发明专利]基于强化学习的关系抽取方法和装置在审

申请号：	201810003062.6	申请日：	2018-01-02
公开（公告）号：	CN108280058A	公开（公告）日：	2018-07-13
发明（设计）人：	何世柱;刘康;赵军;曾祥荣	申请（专利权）人：	中国科学院自动化研究所
主分类号：	G06F17/27	分类号：	G06F17/27;G06F17/30
代理公司：	北京瀚仁知识产权代理事务所(普通合伙) 11482	代理人：	郭文浩;陈晓鹏
地址：	100190 ***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	句子关系抽取强化学习向量表示方法和装置监督数据位置向量预设关系抽取器词向量自然语言处理技术卷积神经网络神经网络构建映射向量分类器池化监督
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明涉及自然语言处理技术领域，具体提供了一种基于强化学习的关系抽取方法和装置，旨在解决如何在弱监督数据中进行关系抽取的技术问题。为此目的，本发明中的基于强化学习的关系抽取方法，包括下述步骤：获取句子中各词的词向量和各词的位置向量；依据各词的词向量和位置向量，利用预设关系抽取器获取句子的关系类别；其中，预设关系抽取器为基于神经网络构建的模型，包括用于获取各词对应的词的向量表示的向量表示层，用于获取特征映射向量的卷积神经网络层，用于获取最终句子的向量表示的池化层，用于获取句子的关系类别的分类器层。通过本发明可以利用有监督模型在弱监督数据中获取句子的关系类别。

技术领域

本发明涉及自然语言处理技术领域，具体涉及一种基于强化学习的关系抽取方法和装置。

背景技术

信息抽取技术是指快速地从各领域海量的非结构化的文本中发现知识，并将这些文本数据表示成计算机能够“理解”的形式。

关系抽取是信息抽取技术中的重要内容，是从非结构化文本中自动识别出一对概念和联系这对概念的语义关系，并构成三元组。在关系抽取任务中，可以把这对概念称为一对实体，把这对概念之间的语义关系称为关系。

传统的关系抽取方法大都为有监督模型方法。有监督模型方法依赖人工标注的数据，不仅费时费力而且难以进行大规模扩展。近年来，弱监督方法得到了一定的发展。弱监督方法是利用现有的知识库自动回标文本来自动获得大规模的训练数据。每个实体对所回标的句子集合为一个包，根据知识库可以获得每个包的标签信息，但是每个句子是没有直接的标签信息，这就导致传统的有监督模型无法在弱监督数据中进行关系抽取。

发明内容

为了解决现有技术中的上述问题，即为了解决如何在弱监督数据中进行关系抽取的技术问题，本发明提供了一种基于强化学习的关系抽取方法和装置。

在第一方面，本发明中的基于强化学习的关系抽取方法，包括：

步骤S100，获取句子中各词的词向量和各词的位置向量；

步骤S200，依据所获取的各词的词向量和各词的位置向量，利用预设关系抽取器获取句子的关系类别；

其中，所述预设关系抽取器为基于神经网络构建的模型，所述预设关系抽取器包括向量表示层、卷积神经网络层、池化层和分类器层；

所述向量表示层，用于将所述各词的词向量和各词的位置向量进行拼接，获取各词对应的词的向量表示；

所述卷积神经网络层，用于依据所述向量表示层所获取的词的向量表示，获取特征映射向量；

所述池化层，用于依据所述卷积神经网络层所获取的特征映射向量，获取初步句子的向量表示，并将其与词的位置向量拼接，获取最终句子的向量表示；

所述分类器层，用于依据所述池化层所获取的最终句子的向量表示，获取句子关系类别概率值，并将所获取的句子关系类别概率值最大的关系类别作为句子的关系类别。

优选地，“获取句子中各词的词向量和各词的位置向量”的步骤具体包括：

步骤S110，利用分词工具获取句子中的词序列，并利用词向量工具获取所述词序列中各词对应的词向量；