[发明专利]一种基于BERT模型的关系抽取方法及其系统在审
申请号: | 202011536001.X | 申请日: | 2020-12-23 |
公开(公告)号: | CN112667808A | 公开(公告)日: | 2021-04-16 |
发明(设计)人: | 曲道奎;杜振军;赵思琦;张悦;王海鹏;杜威 | 申请(专利权)人: | 沈阳新松机器人自动化股份有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F16/36;G06F40/284;G06K9/62 |
代理公司: | 沈阳科苑专利商标代理有限公司 21002 | 代理人: | 许宗富 |
地址: | 110168 辽*** | 国省代码: | 辽宁;21 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 bert 模型 关系 抽取 方法 及其 系统 | ||
本发明涉及人工智能中的自然语言处理领域,特别涉及一种基于BERT模型的关系抽取方法及其系统;本发明先数据集处理,再获取词向量,然后GRU层处理,再注意力层处理,最后Softmax分类处理:选取Softmax回归模型来对注意力层得到的结果进行关系分类,完成最终的关系抽取任务;本发明以BERT预训练模型代替现行的word2vec的关系抽取方法,从而克服传统关系抽取方法缺陷通过BERT模型获取的词向量具有更强的泛化能力,能够充分描述字符级,词级,句子级间的特征关系,以GRU为网络结构,结合注意力机制进行关系抽取,不仅能够使关系抽取的准确率得到提升,还使BERT预训练模型的应用范围得到扩展。
技术领域
本发明涉及人工智能中的自然语言处理领域,特别涉及一种基于BERT模型的关系抽取方法及其系统。
背景技术
随着互联网技术的快速发展,网络中的数据激增,为构建知识图谱提供了充足的信息资源,知识图谱可以辅助知识库来理解人的自然语言,其涉及的技术包括知识抽取、知识存储、图谱构建、命名实体识别、实词提取、对话管理、意图识别、答案生成等方面。
目前网络中的文本数据大部分是非结构化的,不能直接用于构建知识图谱,如何高效地从非结构化的文本中抽取有效信息,成为构建知识图谱中的重要环节。
随着深度学习技术的快速发展,大量深度学习模型应用到关系抽取任务中,目前主流的关系抽取方法为通过word2vec获取词向量然后用深度学习方法进行关系抽取,抽取效果相比传统关系抽取方法有大幅度提高,但通过word2vec方法获取的词向量模型不具备上下文语义分析能力,难以取得更高的关系抽取效果。
发明内容
本发明主要解决的技术问题是提供一种基于BERT模型的关系抽取方法,其以BERT预训练模型代替现行的word2vec的关系抽取方法,从而克服传统关系抽取方法缺陷通过BERT模型获取的词向量具有更强的泛化能力,能够充分描述字符级,词级,句子级间的特征关系,以GRU为网络结构,结合注意力机制进行关系抽取,不仅能够使关系抽取的准确率得到提升,还使BERT预训练模型的应用范围得到扩展,还提供一种基于BERT模型的关系抽取系统。
为解决上述技术问题,本发明采用的一个技术方案是:提供一种基于BERT模型的关系抽取方法,其中,包括如下步骤:
步骤S1、数据集处理:将数据集内的样本分为训练集和测试集;
步骤S2、获取词向量:通过BERT预训练模型获取输入英文的词向量;
步骤S3、GRU层处理:输入由BERT预训练模型得到的句子向量化,从而得到状态信息;
步骤S4、注意力层处理:将GRU层获得的每个时间点的输出信息进行加权求和得到处理结果;
步骤S5、Softmax分类处理:选取Softmax回归模型来对注意力层得到的结果进行关系分类,完成最终的关系抽取任务。
作为本发明的一种改进,在步骤S1内,每个样本中包含带有关系的两个实体且两个实体间的关系类型是唯一的。
作为本发明的进一步改进,在步骤S2内,通过self-Attention机制把上下文整体的信息加入到一个词中,为每个编码后得到的向量构建三个矩阵,从而来获取词向量,其中,三个矩阵分别为用来查询当前词的Q矩阵、用于查询当前词跟其它词的关系的K矩阵和用于特征向量的表达的V矩阵。
作为本发明的更进一步改进,在步骤S2内,self-Attention中每个词进行整个序列的加权。
作为本发明的更进一步改进,在步骤S3内,词向量在GRU网络进行运算,从而得到状态信息。
作为本发明的更进一步改进,在步骤S4内,在步骤S4内,处理结果通过非线性函数生成表征向量。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于沈阳新松机器人自动化股份有限公司,未经沈阳新松机器人自动化股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011536001.X/2.html,转载请声明来源钻瓜专利网。