[发明专利]一种基于迁移学习的实体关系抽取的问答方法及系统在审
申请号: | 202010323470.7 | 申请日: | 2020-04-22 |
公开(公告)号: | CN111522965A | 公开(公告)日: | 2020-08-11 |
发明(设计)人: | 韩雨亭;邓蔚;王瑛琦;王国胤;周政 | 申请(专利权)人: | 重庆邮电大学 |
主分类号: | G06F16/36 | 分类号: | G06F16/36;G06F40/295;G06K9/62;G06N3/04;G06N3/08;G06F16/35 |
代理公司: | 重庆辉腾律师事务所 50215 | 代理人: | 王海军 |
地址: | 400065 重*** | 国省代码: | 重庆;50 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 迁移 学习 实体 关系 抽取 问答 方法 系统 | ||
本发明涉及自然语言处理技术领域,具体涉及基于迁移学习的实体关系抽取的问答方法,关系分类结果的获得包括:获取源域和目标域文本数据集,预处理;将预处理后的数据输入skip‑gram模型训练,得到源域和目标域文本数据的词向量,获取源域和目标域文本数据的位置向量,将位置向量与词向量级联,得到源域目标域文本数据的联合特征向量;将源域文本数据的联合特征向量输入BiLSTM网络预训练,得到预训练过程中的网络参数和源域文本数据的上下文信息、语义特征;将目标域文本数据的联合特征向量输入BiLSTM_CNN融合模型重训练,得到目标域文本数据的高维特征向量并送入分类器,输出关系分类结果。本发明可以提高问答准确率。
技术领域
本发明涉及信息技术领域中的自然语言处理技术领域,具体涉及一种基于迁移学习的实体关系抽取的问答方法及系统。
背景技术
在互联网技术的不断发展和推动下,网络数据内容及碎片化信息正在呈现爆发式增长的态势。知识图谱作为人工智能技术的的重要分支,利用其强大的语义处理能力和开放互联能力将信息和知识有序,有机地进行组织,构建大规模语义网络,为互联网时代的知识获取和信息处理提供了便捷。关系抽取作为知识图谱构建的子任务,从细粒度的无结构化文本信息中挖掘句子的语义关系信息,形成结构化知识,并将其结果服务于构建知识图谱及本体知识库,为知识获取和其他智能应用提供帮助,因此关系抽取任务在基于知识图谱的问答和搜索的应用场景中具有重要意义。目前关系抽取任务分为有监督关系抽取,半监督关系抽取和无监督关系抽取。
有监督关系抽取方法中,基于规则和模板匹配的方法需要通过人工和机器学习总结出规则和模板,费时费力;基于特征向量的方法无法充分利用上下文结构信息。远程监督关系抽取方法,通过知识库自动获取训练数据从而完成数据标注任务。但由于自动标注过程引入大量噪声文本,需额外解决数据噪声问题。由于先实体识别后关系抽取的流水线方法会造成错误传播,同时产生了冗余信息。现阶段无监督的关系抽取方法抽取效果也没有达到理想结果。
中国专利CN107832400A提出了一种基于位置LSTM和CNN联合模型进行进行关系抽取的方法,通过借助联合模型解决了关系抽取模型特征提取不充分的问题,故而可以提高关系抽取准确率。该专利结合了两种模型提取特征的优势并进行组合,从而完成关系抽取任务。
但在关系抽取任务中,先实体识别后关系抽取的流水线方法会导致错误传播的问题,即实体识别的准确率直接影响关系抽取的效果。中国专利CN110781683A提出了一种实体关系联合抽取方法,利用联合抽取模型提高三元组抽取的准确率。该方法很好地避免了流水线方法错误传播的问题,同时提高了关系抽取效率。
现有技术的关系抽取方法在领域样本数量较少的情况下,关系抽取准确率会大大降低,只能通过人工构建数据集,或通过远程监督标注数据的方法扩充数据样本,然而人工标注和构建的过程费时费力,消耗大量人力成本,远程监督标注的数据会产生大量噪声,从而降低关系分类结果的准确性,极大降低线上输入问题的答案准确性。
发明内容
为了解决上述现有技术在目标领域样本数量较少条件下无法在训练模型中得到理想的学习效果,从而导致的关系抽取结果不准确的问题,本发明提出了一种基于BiLSTM_CNN融合网络和迁移学习的关系抽取方法,该方法首先利用数据量较大且与目标域文本数据相似度较高的源域文本数据进行预训练,借助迁移学习方法将预训练得到的参数进行重训练,通过这种权重迁移的方式帮助目标域少样本数据完成关系抽取任务,提升关系抽取的效率和准确度。
一种基于迁移学习的实体关系抽取的问答方法,将关系分类结果链接至知识图谱中,根据知识图谱的关系页面实时查询输入实体词之间的关系信息,输出答案,关系分类结果的获得包括以下步骤:
S1、获取源域文本数据集和目标域文本数据集,所述源域文本数据集和所述目标域文本数据集中包括至少一个句子,每一个句子中至少包括一个实体,对所述源域文本数据集和所述目标域文本数据集中每个句子中的每个实体进行识别和标注;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于重庆邮电大学,未经重庆邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010323470.7/2.html,转载请声明来源钻瓜专利网。
- 上一篇:基于汉字拆分的输入验证方法
- 下一篇:一种避免医疗纠纷的监控管理系统