[发明专利]训练文档信息抽取模型、文档信息抽取的方法和装置在审
申请号: | 202210558415.5 | 申请日: | 2022-05-20 |
公开(公告)号: | CN114860867A | 公开(公告)日: | 2022-08-05 |
发明(设计)人: | 吴思瑾;刘涵;胡腾;冯仕堃;陈永锋 | 申请(专利权)人: | 北京百度网讯科技有限公司 |
主分类号: | G06F16/31 | 分类号: | G06F16/31;G06F40/30;G06N3/04;G06N3/08 |
代理公司: | 北京英赛嘉华知识产权代理有限责任公司 11204 | 代理人: | 王达佐;马晓亚 |
地址: | 100085 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 训练 文档 信息 抽取 模型 方法 装置 | ||
本公开提供了训练文档信息抽取模型和文档信息抽取的方法和装置,涉及人工智能领域,尤其涉及自然语言处理领域。具体实现方案为:获取标注了预设问题对应的答案的训练数据和文档信息抽取模型,其中,所述训练数据包括版式文档训练数据和流式文档训练数据;从所述训练数据中提取出至少一项特征;将所述至少一项特征融合后得到融合特征;将预设的问题、所述融合特征和所述训练数据输入文档信息抽取模型,得到预测结果;基于所述预测结果和所述答案调整文档信息抽取模型的网络参数。该实施方式能够将流式文档信息抽取能力和版式文档信息抽取能力整合到统一架构的模型中,保持模型信息抽取效果的同时提升了模型的通用性,减少了私有化成本。
技术领域
本公开涉及人工智能领域,尤其涉及自然语言处理领域,具体为一种训练文档信息抽取模型、文档信息抽取的方法和装置。
背景技术
在真实的用户业务场景中,对文本的标注成本往往是非常昂贵的。因此,模型的零样本或是小样本学习能力非常重要,这决定了信息抽取模型是否可以在多个不同垂类的应用场景下被广泛的使用和部署。
同时,用户给出的少量标注数据可能同时包含了流式文档(*.doc、*.docx、*.Wps、*.Txt、*.excel等)和版式文档(*.pdf、*.jpg、*.Jpeg、*.Png、*.Bmp、*.tif等)。为了尽可能的利用用户给出的标注数据,根据用户需求对模型进行充分的训练,因此将流式文档信息抽取能力和版式文档信息抽取能力整合到统一架构的模型中是非常必要的。
相关技术在文档信息抽取过程中,将信息抽取拆解为两阶段,导致错误的累积,时耗较高,无法充分结合视觉和语义的信息。不能充分利用全部训练数据,需要更多的标注,人力成本高。
发明内容
本公开提供了一种训练文档信息抽取模型、文档信息抽取的方法、装置、设备、存储介质以及计算机程序产品。
根据本公开的第一方面,提供了一种训练文档信息抽取模型的方法,包括:获取标注了预设问题对应的答案的训练数据和文档信息抽取模型,其中,所述训练数据包括版式文档训练数据和流式文档训练数据;从所述训练数据中提取出至少一项特征;将所述至少一项特征融合后得到融合特征;将预设的问题、所述融合特征和所述训练数据输入文档信息抽取模型,得到预测结果;基于所述预测结果和所述答案调整文档信息抽取模型的网络参数。
根据本公开的第二方面,提供了一种文档信息抽取方法,包括:获取待提取的文档信息;从所述文档信息中提取出至少一项特征;将所述至少一项特征融合后得到融合特征;将预设的问题、所述融合特征和所述文档信息输入根据第一方面中任一项所述的方法训练出的文档信息抽取模型,得到答案。
根据本公开的第三方面,提供了一种训练文档信息抽取模型的装置,包括:获取单元,被配置成获取标注了预设问题对应的答案的训练数据和文档信息抽取模型,其中,所述训练数据包括版式文档训练数据和流式文档训练数据;提取单元,被配置成从所述训练数据中提取出至少一项特征;融合单元,被配置成将所述至少一项特征融合后得到融合特征;预测单元,被配置成将预设的问题、所述融合特征和所述训练数据输入文档信息抽取模型,得到预测结果;调整单元,被配置成基于所述预测结果和所述答案调整文档信息抽取模型的网络参数。
根据本公开的第四方面,提供了一种文档信息抽取装置,包括:获取单元,被配置成获取待提取的文档信息;提取单元,被配置成从所述文档信息中提取出至少一项特征;融合单元,被配置成将所述至少一项特征融合后得到融合特征;预测单元,被配置成将预设的问题、所述融合特征和所述文档信息输入根据第二方面中任一项所述的装置训练出的文档信息抽取模型,得到答案。
根据本公开的第五方面,提供了一种电子设备,包括:至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行第一方面中任一项所述的方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京百度网讯科技有限公司,未经北京百度网讯科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210558415.5/2.html,转载请声明来源钻瓜专利网。
- 信息记录介质、信息记录方法、信息记录设备、信息再现方法和信息再现设备
- 信息记录装置、信息记录方法、信息记录介质、信息复制装置和信息复制方法
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录设备、信息重放设备、信息记录方法、信息重放方法、以及信息记录介质
- 信息存储介质、信息记录方法、信息重放方法、信息记录设备、以及信息重放设备
- 信息存储介质、信息记录方法、信息回放方法、信息记录设备和信息回放设备
- 信息记录介质、信息记录方法、信息记录装置、信息再现方法和信息再现装置
- 信息终端,信息终端的信息呈现方法和信息呈现程序
- 信息创建、信息发送方法及信息创建、信息发送装置