[发明专利]一种自然语言要素抽取模型的训练方法及装置有效
申请号: | 201910243868.7 | 申请日: | 2019-03-28 |
公开(公告)号: | CN109978060B | 公开(公告)日: | 2021-10-22 |
发明(设计)人: | 李嘉伟;盛志超 | 申请(专利权)人: | 科大讯飞华南人工智能研究院(广州)有限公司 |
主分类号: | G06F40/205 | 分类号: | G06F40/205;G06N5/02 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 张小娜;王宝筠 |
地址: | 511458 广东省广州市南沙区丰泽东路106*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 自然语言 要素 抽取 模型 训练 方法 装置 | ||
本申请公开了一种自然语言要素抽取模型的训练方法及装置,该方法包括:通过利用目标领域的知识图谱中各个节点的目标表示结果,对自然语言要素抽取模型进行训练。由于知识图谱是基于目标领域中大量且全面的理论知识以及应用实例建立的,因而,知识图谱能够全面具体地概括目标领域的相关知识,使得基于知识图谱进行训练的自然语言要素抽取模型能够对目标领域内的要素更敏感,而且,还使得该自然语言要素抽取模型不仅能够通过目标文本的上下文找寻答案应该分布的位置,还能够在一些上下文中的答案信息不那么明显的情况下,准确地找寻答案应该分布的位置,从而提升了自然语言要素抽取模型的要素抽取能力。
技术领域
本申请涉及自然语言处理技术领域,尤其涉及一种自然语言要素抽取模型的训练方法及装置。
背景技术
自然语言模型本质是一种识别模式的算法,当一段文本字面形式上的信息已经被完全利用,单纯的自然语言模型便达到了它的瓶颈。
自然语言模型中的用于进行要素抽取的模型被称为自然语言要素抽取模型,现有的自然语言要素抽取模型更多地依赖从训练数据中挖掘到的知识,其性能取决于模型超参数调整的好坏及训练标注数据的数量和广度。
基于此,当使用这样的要素抽取模型抽取特定领域(例如盗窃罪定罪领域) 的要素时,自然语言要素抽取模型只能通过上下文找寻答案应该分布的位置,而在一些上下文中的答案信息不那么明显时,要素抽取的模型性能便受到了限制。
发明内容
本申请实施例的主要目的在于提供一种自然语言要素抽取模型的训练方法及装置,能够提升自然语言要素抽取模型对特定领域要素的抽取能力。
本申请实施例提供了一种自然语言要素抽取模型的训练方法,包括:
获取目标领域的知识图谱;
生成所述知识图谱中各个节点的目标表示结果,所述目标表示结果携带了对应节点的节点内容的语义信息;
利用所述知识图谱中各个节点的目标表示结果,对自然语言要素抽取模型进行训练。
可选的,所述知识图谱包括具有连接关系的各个标签节点、以及与所述标签节点互为邻接节点的各个实例节点;
其中,所述标签节点对应于标签内容,所述标签节点的实例节点对应于与所述标签内容相关的实例内容。
可选的,所述对自然语言要素抽取模型进行训练之后,还包括:
更新所述目标领域的知识图谱;
基于更新后的知识图谱,继续执行所述生成所述知识图谱中各个节点的目标表示结果的步骤。
可选的,所述更新所述目标领域的知识图谱,包括:
对于所述知识图谱中的各个标签节点,生成包含所述标签节点的标签内容的第一样本问题;
利用当前的自然语言要素抽取模型,从所述目标领域的样本知识数据中抽取所述第一样本问题的各条答案;
基于所述各条答案为所述标签节点添加或更新实例节点。
可选的,所述基于所述各条答案为所述标签节点添加实例节点,包括:
确定所述各条答案中的每条答案的置信度,并从所述各条答案中选取置信度高的N条答案;
将所述N条答案分别作为N个实例节点的实例内容,并将该N个实例节点作为所述标签节点的实例节点。
可选的,所述基于所述各条答案为所述标签节点更新实例节点,包括:
确定所述各条答案中的每条答案的置信度,并从所述各条答案中选取置信度高的N条答案;
将所述N条答案分别作为N个实例节点的实例内容;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于科大讯飞华南人工智能研究院(广州)有限公司,未经科大讯飞华南人工智能研究院(广州)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910243868.7/2.html,转载请声明来源钻瓜专利网。