[发明专利]一种知识抽取方法、装置、设备和介质有效
申请号: | 202010312552.1 | 申请日: | 2020-04-20 |
公开(公告)号: | CN111522928B | 公开(公告)日: | 2023-06-23 |
发明(设计)人: | 李旭;孙明明;李平;刘桂良 | 申请(专利权)人: | 北京百度网讯科技有限公司 |
主分类号: | G06F16/332 | 分类号: | G06F16/332;G06F16/33;G06F16/9532 |
代理公司: | 北京品源专利代理有限公司 11332 | 代理人: | 孟金喆 |
地址: | 100085 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 知识 抽取 方法 装置 设备 介质 | ||
本申请公开了一种知识抽取方法、装置、设备和介质,涉及自然语言处理技术。具体实现方案为:获取输入文本、预先训练的预测器和奖励拟合器;依据强化学习的方法,对输入文本的输出文本序列的状态空间进行搜索,并在搜索过程中,根据预测器输出的预测序列中与各时间步下每个状态对应的下一个位置上所有单词的概率,和奖励拟合器对应拟合得到的奖励,确定各时间步下每个状态选择的动作;根据对状态空间的搜索结果,确定各时间步下的目标动作,并根据各时间步下的目标动作确定目标输出文本序列。本申请实施例通过在强化学习中增加对状态空间的探索,避免了预测阶段模型被困在局部最小值,并能细化到字词级别的评价,从而提高了模型的准确率和召回率。
技术领域
本申请涉及互联网领域,尤其涉及一种自然语言处理技术,具体涉及一种知识抽取方法、装置、设备和介质。
背景技术
在互联网上,每天都会产生海量的非结构化文本数据,这些文本数据中(比如新闻、博客)包含了大量的非结构化的信息,这些非结构化的信息人类是可以容易理解的,但是计算机很难对其进行运算和逻辑处理。因此,需要通过信息抽取任务,从非结构化的自然语言中抽取结构化的信息,比如实体、实体之间的关系等。
信息抽取包括垂直领域信息抽取任务和开放领域信息抽取任务。其中,垂直领域信息抽取任务是在一个已定义好的刚要系统中进行信息抽取工作。而开放领域信息抽取工作则不存在这个预先定义好的刚要系统,通常着重在挖掘自然语言中蕴含的知识,以及表达知识的方法,并从开放领域自然语言中提取实体以及实体之间的关系,我们称这种实体以及实体间关系为自然语言中蕴含的知识或事实。这些知识在很多任务中是非常有价值的,比如:文本摘要、阅读理解和基于知识的问答系统等。
然而,现有的开放领域信息抽取方法的准确率和召回率并不高。
发明内容
本申请实施例提供一种知识抽取方法、装置、设备和介质,以提高知识抽取的准确率和召回率。
第一方面,本申请实施例提供了一种知识抽取方法,包括:
获取输入文本、预先训练的预测器和奖励拟合器,其中,所述预测器用于对输入文本进行序列预测,确定输出的预测序列的每个位置上预置单词表中所有单词的概率,所述奖励拟合器用于根据输入文本和所述预测器输出的预测序列中的至少一个知识进行拟合,并将拟合的结果作为奖励;
依据强化学习的方法,对所述输入文本的输出文本序列的状态空间进行搜索,并在搜索过程中,根据所述预测器输出的所述预测序列中与各时间步下每个状态对应的下一个位置上所述所有单词的概率,和所述奖励拟合器对应拟合得到的奖励,确定各时间步下每个状态选择的动作,其中,所述状态空间表示所述预置单词表中所有单词在一个序列上的排列组合;
根据对所述状态空间的搜索结果,确定各时间步下的目标动作,并根据各时间步下的目标动作确定目标输出文本序列,其中,所述目标输出文本序列中包括至少一个知识。
第二方面,本申请实施例还提供了一种知识抽取装置,包括:
获取模块,用于获取输入文本、预先训练的预测器和奖励拟合器,其中,所述预测器用于对输入文本进行序列预测,确定输出的预测序列的每个位置上预置单词表中所有单词的概率,所述奖励拟合器用于根据输入文本和所述预测器输出的预测序列中的至少一个知识进行拟合,并将拟合的结果作为奖励;
状态空间搜索模块,用于依据强化学习的方法,对所述输入文本的输出文本序列的状态空间进行搜索,并在搜索过程中,根据所述预测器输出的所述预测序列中与各时间步下每个状态对应的下一个位置上所述所有单词的概率,和所述奖励拟合器对应拟合得到的奖励,确定各时间步下每个状态选择的动作,其中,所述状态空间表示所述预置单词表中所有单词在一个序列上的排列组合;
知识确定模块,用于根据对所述状态空间的搜索结果,确定各时间步下的目标动作,并根据各时间步下的目标动作确定目标输出文本序列,其中,所述目标输出文本序列中包括至少一个知识。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京百度网讯科技有限公司,未经北京百度网讯科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010312552.1/2.html,转载请声明来源钻瓜专利网。