[发明专利]结构化信息的生成方法、装置、电子设备和存储介质有效
申请号: | 202010305158.5 | 申请日: | 2020-04-17 |
公开(公告)号: | CN111597224B | 公开(公告)日: | 2023-09-15 |
发明(设计)人: | 李旭;刘桂良;孙明明;李平 | 申请(专利权)人: | 北京百度网讯科技有限公司 |
主分类号: | G06F16/25 | 分类号: | G06F16/25;G06F16/2458;G06F16/28;G06F18/22;G06N3/0442;G06N3/0455;G06N3/084;G06N3/0475 |
代理公司: | 北京清亦华知识产权代理事务所(普通合伙) 11201 | 代理人: | 王艳斌 |
地址: | 100085 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 结构 信息 生成 方法 装置 电子设备 存储 介质 | ||
1.一种结构化信息的生成方法,应用于对开放领域信息进行结构化信息抽取,其特征在于,所述方法包括:
获取源文本序列;
将所述源文本序列输入行为-评价模型,以生成所述源文本序列对应的结构化信息,其中,所述行为-评价模型包括行为子模型和评价子模型,所述行为子模型用于根据输入的所述源文本序列生成所述源文本序列对应的结构化信息,所述评价子模型用于对所述行为子模型进行训练;
将所述源文本序列输入行为-评价模型,以生成所述源文本序列对应的结构化信息包括:
将获取到的所述源文本序列输入行为-评价模型;
通过行为子模型对输入的源文本序列进行词嵌入编码,并将词嵌入编码后得到的词向量输入双向门控循环单元编码器中进行编码;
将所述双向门控循环单元编码器输出的结果输入到双向门控循环单元解码器中进行解码,以得到生成的结构化信息;
所述将所述源文本序列输入行为-评价模型,以生成所述源文本序列对应的结构化信息之前,还包括:
获取多个训练样本;每一个所述训练样本中包括样本文本序列和所述样本文本序列所对应的样本结构化信息;
将所述多个训练样本输入所述行为子模型以生成预测结构化信息;
将所述预测结构化信息和所述样本结构化信息输入所述评价子模型,以生成评价值;以及
根据所述评价值对所述评价子模型进行训练;
所述评价子模型包括编码器和解码器;所述将所述预测结构化信息和所述样本结构化信息输入所述评价子模型以生成评价值,包括:
将所述样本结构化信息输入所述编码器,以及将所述预测结构化信息输入所述解码器,以生成预测质量得分;
根据所述预测结构化信息和所述样本结构化信息生成奖励得分;
根据所述预测质量得分和所述奖励得分生成所述评价值。
2.如权利要求1所述的结构化信息的生成方法,其特征在于,所述根据所述预测结构化信息和所述样本结构化信息生成奖励得分,包括:
根据所述样本结构化信息和所述预测结构化信息生成所述预测结构化信息之中每个序列位置的相似性得分;
根据所述每个序列位置的相似性得分生成所述预测结构化信息的奖励得分,其中,所述序列位置的奖励得分为当前序列位置的相似性得分与上一个序列位置的相似性得分之差。
3.如权利要求1所述的结构化信息的生成方法,其特征在于,所述评价子模型的损失函数为:
,
其中,为所述预测质量得分,为所述奖励得分,T为所述样本结构化信息对应的序列长度,N为采样的数量,和分别为第t序列位置的单词和第ϒ序列位置的单词,为第1至第t-1序列位置的单词,为所述样本结构化信息,n、ϒ、t均为正整数。
4.如权利要求1所述的结构化信息的生成方法,其特征在于,所述方法还包括:
根据所述预测质量得分对所述行为子模型的参数进行梯度更新。
5.如权利要求4所述的结构化信息的生成方法,其特征在于,通过以下公式对所述行为子模型的参数进行梯度更新,
,其中,为先进方程,其中,
,
其中,为所述预测质量得分,为待训练参数,为单词表,a和b均为所述单词表中的单词,T为所述样本结构化信息对应的序列长度,N为采样的数量,为第1至第t-1序列位置的单词,为所述样本结构化信息,为所述行为子模型,n和t均为正整数。
6.如权利要求1所述的结构化信息的生成方法,其特征在于,所述将所述多个训练样本输入所述行为子模型以生成预测结构化信息之后,还包括:
获取所述预测结构化信息之中每个序列位置的概率;
确定所述概率小于预设概率阈值的序列位置时,则在所述概率小于预设概率阈值的序列位置处按照所述序列位置对应预测结果进行扩展;
从所述序列位置开始使用所述行为子模型进行预测,以重新生成预测结构化信息;以及
根据重新生成的预测结构化信息对所述奖励得分进行更新。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京百度网讯科技有限公司,未经北京百度网讯科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010305158.5/1.html,转载请声明来源钻瓜专利网。
- 信息记录介质、信息记录方法、信息记录设备、信息再现方法和信息再现设备
- 信息记录装置、信息记录方法、信息记录介质、信息复制装置和信息复制方法
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录设备、信息重放设备、信息记录方法、信息重放方法、以及信息记录介质
- 信息存储介质、信息记录方法、信息重放方法、信息记录设备、以及信息重放设备
- 信息存储介质、信息记录方法、信息回放方法、信息记录设备和信息回放设备
- 信息记录介质、信息记录方法、信息记录装置、信息再现方法和信息再现装置
- 信息终端,信息终端的信息呈现方法和信息呈现程序
- 信息创建、信息发送方法及信息创建、信息发送装置