[发明专利]基于预训练模型的生成式信息抽取方法和装置在审
申请号: | 202111016295.8 | 申请日: | 2021-08-31 |
公开(公告)号: | CN113780011A | 公开(公告)日: | 2021-12-10 |
发明(设计)人: | 王路路;陈嘉琳;刘佳;张鹏 | 申请(专利权)人: | 北京智谱华章科技有限公司 |
主分类号: | G06F40/35 | 分类号: | G06F40/35;G06F40/211;G06F40/186;G06K9/62 |
代理公司: | 北京清亦华知识产权代理事务所(普通合伙) 11201 | 代理人: | 罗岚 |
地址: | 100084 北京市海淀*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 训练 模型 生成 信息 抽取 方法 装置 | ||
1.一种基于预训练模型的生成式信息抽取方法,其特征在于,包括以下步骤:
获取结构化信息抽取任务的历史标注数据;
根据所述历史标注数据中每个目标字段之间的依赖关系,生成多轮问题模板,并将所述历史标注数据预处理为多轮问答形式的数据集;
将所述多轮问题模板序列化,并结合所述多轮问答形式的数据集微调预设的生成式训练模型;
将待抽取的文本数据输入至微调后的生成式训练模型中,通过微调后的生成式训练模型生成所述多轮问题模板中每轮问题对应的字段的答案;
将每轮问题的答案形成结构化的数据,并评测所述微调后的生成式训练模型。
2.根据权利要求1所述的抽取方法,其特征在于,所述根据所述历史标注数据中每个目标字段之间的依赖关系,生成多轮问题模板,包括:
根据所述标注数据中每个目标字段之间的依赖关系和缺失情况,确定所述结构化信息的依赖关系;
根据所述结构化信息之间的依赖关系,对每个所述目标字段设置对应的问题模板;
按照所述依赖关系对每个所述问题模板进行组合,以生成所述多轮问题模板。
3.根据权利要求1或2所述的抽取方法,其特征在于,所述将所述多轮问题模板序列化,并结合所述多轮问答形式的数据集微调预设的生成式训练模型,包括:
将所述多轮问题模板转化为包含上下文、问题和待生成的答案的第一序列;
通过预设的语言模型获取所述第一序列的上下文表示向量;
从所述多轮问答形式的数据集中抽取数据,并结合所述第一序列和所述上下文表示向量训练所述预设的生成式训练模型,以生成应答所述多轮问题模板的生成式训练模型。
4.根据权利要求1所述的抽取方法,其特征在于,所述通过微调后的生成式训练模型生成所述多轮问题模板中每轮问题对应的字段的答案,包括:
加载所述微调后的生成式训练模型,并输入待抽取的文本数据;
按照所述多轮问题模板中各轮问题的次序,将当前问题和上一轮问题对应的字段的答案相结合后输入至所述微调后的生成式训练模型中,生成所述当前问题对应的字段的答案;
将所述当前问题对应的字段的答案与所述多轮问题模板中的下一轮问题相结合后输入至所述微调后的生成式训练模型中,生成所述下一轮问题对应的字段的答案。
5.根据权利要求4所述的抽取方法,其特征在于,在所述将当前问题和上一轮问题对应的字段的答案相结合后,还包括:
获取所述当前问题的上下文;
将所述当前问题和所述当前问题的上下文,转化为包含所述当前问题的上下文、所述当前问题和所述当前问题待生成的答案的第二序列。
6.根据权利要求1所述的抽取方法,其特征在于,所述获取结构化信息抽取任务的历史标注数据之后,还包括:按照预设的比例将所述历史标注数据划分为训练集、验证集、测试集。
7.根据权利要求1所述的抽取方法,其特征在于,所述评测所述微调后的生成式训练模型,包括:
计算所述微调后的生成式训练模型生成的答案的精准率、召回率和综合评价值;
根据所述精准率、所述召回率和所述综合评价值评测所述微调后的生成式训练模型。
8.根据权利要求7所述的抽取方法,其特征在于,通过以下公式计算所述精准率、所述召回率和所述综合评价值:
其中,
其中,P为精准率,R为召回率,F1为综合评价值,m为抽取的记录数,n为标注的记录数,k为标注数据中记录i的元素个数。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京智谱华章科技有限公司,未经北京智谱华章科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111016295.8/1.html,转载请声明来源钻瓜专利网。