[发明专利]一种知识抽取方法、装置、设备和介质有效
申请号: | 202010312552.1 | 申请日: | 2020-04-20 |
公开(公告)号: | CN111522928B | 公开(公告)日: | 2023-06-23 |
发明(设计)人: | 李旭;孙明明;李平;刘桂良 | 申请(专利权)人: | 北京百度网讯科技有限公司 |
主分类号: | G06F16/332 | 分类号: | G06F16/332;G06F16/33;G06F16/9532 |
代理公司: | 北京品源专利代理有限公司 11332 | 代理人: | 孟金喆 |
地址: | 100085 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 知识 抽取 方法 装置 设备 介质 | ||
1.一种知识抽取方法,其特征在于,包括:
获取输入文本、预先训练的预测器和奖励拟合器,其中,所述预测器用于对输入文本进行序列预测,确定输出的预测序列的每个位置上预置单词表中所有单词的概率,所述奖励拟合器用于根据输入文本和所述预测器输出的预测序列中的至少一个知识进行拟合,并将拟合的结果作为奖励;
依据强化学习的方法,对所述输入文本的输出文本序列的状态空间进行搜索,并在搜索过程中,根据所述预测器输出的所述预测序列中与各时间步下每个状态对应的下一个位置上所述所有单词的概率,和所述奖励拟合器对应拟合得到的奖励,确定各时间步下每个状态选择的动作,其中,所述状态空间表示所述预置单词表中所有单词在一个序列上的排列组合,所述奖励表示当前选择要执行的动作对下一个状态而言具有的价值;
根据对所述状态空间的搜索结果,确定各时间步下的目标动作,并根据各时间步下的目标动作确定目标输出文本序列,其中,所述目标输出文本序列中包括至少一个知识;
其中,所述知识抽取方法整体建模为一个马尔科夫决策过程,输入的是所述输入文本的序列,输出的是所述目标输出文本序列,由多个单词组成。
2.根据权利要求1所述的方法,其特征在于,所述对所述输入文本的输出文本序列的状态空间进行搜索,包括:
利用蒙特卡洛树搜索算法,对所述输入文本的输出文本序列的状态空间进行搜索。
3.根据权利要求2所述的方法,其特征在于,在所述蒙特卡洛树搜索算法中,树的节点表示状态,每个节点保存有状态转移时执行的动作、历史上该节点被选择的次数、该节点的价值以及由所述预测器输出的所述预测序列中与该节点的状态对应的下一个位置上所述执行的动作的概率;
其中,对于非叶子节点,所述价值是该节点的子树上所有节点的价值的均值;对于叶子节点,所述价值是所述奖励拟合器根据所述输入文本和所述预测器在当前状态下的预测序列中的至少一个知识进行拟合得到的奖励。
4.根据权利要求3所述的方法,其特征在于,所述在搜索过程中,根据所述预测器输出的所述预测序列中与各时间步下每个状态对应的下一个位置上所述所有单词的概率,和所述奖励拟合器对应拟合得到的奖励,确定各时间步下每个状态选择的动作,包括:
在任意当前时间步的当前状态下,获取当前状态节点的下一层各候选节点对应的所述概率和所述价值;
根据各候选节点被选择的次数、所述概率和所述价值进行计算,将计算结果中值最大的候选节点保存的所述状态转移时执行的动作,作为所述当前状态下选择的动作。
5.根据权利要求4所述的方法,其特征在于,所述根据对所述状态空间的搜索结果,确定各时间步下的目标动作,并根据各时间步下的目标动作确定目标输出文本序列,包括:
在所述当前时间步的根节点状态下,对所述状态空间中的各候选预测序列执行所述搜索过程,并在执行次数满足预设条件时,根据从所述当前时间步的根节点出发的所有路径上节点的访问次数的概率分布,确定所述当前时间步的根节点选择的目标动作;
将所述当前时间步的根节点选择所述目标动作后转移到的状态节点,作为下一时间步的根节点,并在该下一时间步的根节点状态下重复执行所述搜索过程,确定该下一时间步的根节点选择的目标动作,直到搜索至具有序列终结标志的根节点为止;
根据各时间步的根节点选择的目标动作确定所述目标输出文本序列。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京百度网讯科技有限公司,未经北京百度网讯科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010312552.1/1.html,转载请声明来源钻瓜专利网。