[发明专利]建立信息抽取模型的方法、装置、电子设备和可读存储介质在审
申请号: | 202011454491.9 | 申请日: | 2020-12-10 |
公开(公告)号: | CN112528641A | 公开(公告)日: | 2021-03-19 |
发明(设计)人: | 贾巍;戴岱;肖欣延 | 申请(专利权)人: | 北京百度网讯科技有限公司 |
主分类号: | G06F40/279 | 分类号: | G06F40/279;G06F40/30;G06N20/00 |
代理公司: | 北京鸿德海业知识产权代理有限公司 11412 | 代理人: | 田宏宾 |
地址: | 100085 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 建立 信息 抽取 模型 方法 装置 电子设备 可读 存储 介质 | ||
本申请公开了一种建立信息抽取模型的方法、装置,涉及自然语言处理、深度学习技术领域。本申请在建立信息抽取模型时所采用的方案为:获取多个训练数据,使用训练数据对深度学习模型进行预设次数的训练;获取多个标注有主语的待处理文本,使用深度学习模型对多个待处理文本进行预测,得到各待处理文本中与所标注的主语对应的谓语和宾语;根据各待处理文本、各待处理文本中的主语以及与主语对应的谓语和宾语得到置信数据;使用训练数据与置信数据对深度学习模型进行训练之后,转至执行获取待处理文本的步骤,以此循环进行,直至深度学习模型的训练达到终止条件得到信息抽取模型。本申请能够建立从不同关系类别的文本中抽取关系信息的信息抽取模型。
技术领域
本申请涉及信息处理技术领域,尤其涉及自然语言处理、深度学习技术领域中的一种建立信息抽取模型的方法、装置、电子设备和可读存储介质。
背景技术
在各个行业中,普遍存在以自然语言记录的无结构文本,例如新闻、百科、财报等。同时,在各个行业中,也普遍存在从无结构文本中抽取结构化信息的需求,例如从无结构文本中抽取关系信息,关系信息即为文本中的实体对与实体对之间关系的三元组(subject,object,predicate)。
由于存在大量的无结构文本,很难直接通过人力进行关系信息的抽取工作,所以相应的以计算机为基础的关系信息抽取软件应运而生。
但现有的关系信息抽取软件需要预先制定抽取目标的关系类别,如成立时间、演唱者、专辑等,每种关系信息抽取软件仅能够抽取特定类别的关系信息。若要实现抽取不同类别的关系信息,则需要开发多个关系信息抽取软件,导致关系信息抽取软件的训练步骤较为繁琐、训练效率较低。
发明内容
本申请为解决技术问题所采用的技术方案是提供一种建立信息抽取模型的方法,包括:获取多个训练数据,使用所述训练数据对深度学习模型进行预设次数的训练;获取多个标注有主语的待处理文本,并使用所述深度学习模型对所述多个待处理文本进行预测,得到各待处理文本中与所标注的主语对应的谓语和宾语;根据各待处理文本、各待处理文本中的主语以及与所述主语对应的谓语和宾语,得到置信数据;使用所述训练数据与所述置信数据对所述深度学习模型进行训练之后,转至执行获取所述待处理文本的步骤,以此循环进行,直至所述深度学习模型的训练达到终止条件,得到信息抽取模型;所述信息抽取模型能够根据输入的文本与文本中的主语,输出文本中与主语对应的谓语和宾语。
本申请为解决技术问题所采用的技术方案是提供一种建立信息抽取模型的装置,包括:第一训练单元,用于获取多个训练数据,使用所述训练数据对深度学习模型进行预设次数的训练;预测单元,用于获取多个标注有主语的待处理文本,并使用所述深度学习模型对所述多个待处理文本进行预测,得到各待处理文本中与所标注的主语对应的谓语和宾语;处理单元,用于根据各待处理文本、各待处理文本中的主语以及与所述主语对应的谓语和宾语,得到置信数据;第二训练单元,用于使用所述训练数据与所述置信数据对所述深度学习模型进行训练之后,转至执行获取所述待处理文本的步骤,以此循环进行,直至所述深度学习模型的训练达到终止条件,得到信息抽取模型;所述信息抽取模型能够根据输入的文本与文本中的主语,输出文本中与主语对应的谓语和宾语。
一种电子设备,其特征在于,包括:至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行上述方法。
一种存储有计算机指令的非瞬时计算机可读存储介质,其特征在于,所述计算机指令用于使所述计算机执行上述方法。
一种计算机程序产品,当所述计算机程序产品中的指令处理器执行时,执行上述建立信息抽取模型的方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京百度网讯科技有限公司,未经北京百度网讯科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011454491.9/2.html,转载请声明来源钻瓜专利网。
- 信息记录介质、信息记录方法、信息记录设备、信息再现方法和信息再现设备
- 信息记录装置、信息记录方法、信息记录介质、信息复制装置和信息复制方法
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录设备、信息重放设备、信息记录方法、信息重放方法、以及信息记录介质
- 信息存储介质、信息记录方法、信息重放方法、信息记录设备、以及信息重放设备
- 信息存储介质、信息记录方法、信息回放方法、信息记录设备和信息回放设备
- 信息记录介质、信息记录方法、信息记录装置、信息再现方法和信息再现装置
- 信息终端,信息终端的信息呈现方法和信息呈现程序
- 信息创建、信息发送方法及信息创建、信息发送装置