[发明专利]基于预训练模型的生成式信息抽取方法和装置在审
申请号: | 202111016295.8 | 申请日: | 2021-08-31 |
公开(公告)号: | CN113780011A | 公开(公告)日: | 2021-12-10 |
发明(设计)人: | 王路路;陈嘉琳;刘佳;张鹏 | 申请(专利权)人: | 北京智谱华章科技有限公司 |
主分类号: | G06F40/35 | 分类号: | G06F40/35;G06F40/211;G06F40/186;G06K9/62 |
代理公司: | 北京清亦华知识产权代理事务所(普通合伙) 11201 | 代理人: | 罗岚 |
地址: | 100084 北京市海淀*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 训练 模型 生成 信息 抽取 方法 装置 | ||
本申请公开了一种基于预训练模型的生成式信息抽取方法和装置,该方法包括:获取结构化信息抽取任务的历史标注数据;根据每个目标字段之间的依赖关系,生成学者多轮问题模板,并将标注数据处理为多轮问答形式的数据集;将多轮问题模板序列化,并结合多轮问答形式的数据集微调生成式训练模型;将待抽取的文本输入至微调后的生成式训练模型中,通过微调后的生成式训练模型生成多轮问题模板中每轮问题对应的字段的答案;将每轮问题的答案形成结构化的数据,并评测模型。本发明充分考虑不同字段之间依赖关系,通过生成式模型减少对实体的依赖,可以准确、快速地抽取结构化信息。
技术领域
本申请涉及信息抽取技术领域,特别涉及一种基于预训练模型的生成式信息抽取方法和装置。
背景技术
目前,互联网上信息资源丰富,往往无结构且类型多样,难以精确检索到相关的记录信息,如将某类事件按照发生地点归类,而搜索引擎无法完成,因此迫切需要快速准确获取信息的技术手段,从而信息抽取技术应运而生。以学术圈为例,全球有数亿位专家学者,而这些专家学者数据大多以异构非结构化形式在互联网呈现,这些数据蕴含着大量的有价值数据,包括:基本信息(比如,邮箱、职称、工作单位等)、教育经历(比如,就读院校、学历等)、工作履历(比如,工作单位、职称等)。而由于数据来源不一,并且以非结构化存储,难以直接构建出一个学者的多精度人才语义画像,从而满足各种不同场景和数据维度下的智能人才分析需求。因此,如何从海量零散且非结构化的数据中,自动、准确、快速地将有价值的信息抽取出来并以表格状的格式存储,已然成为学术界和工业界关注的热点问题。
相关技术中,通常是采用基于规则/正则的文本匹配方法和基于序列标注的深度学习方法抽取文本信息时。然而,申请人发现,在实际场景中存在一个实体是多段记录的某个字段,例如一个人可以在不同的时间在不同的学校学习,也可以在不同的时间在同一个学校攻读不同学位,这种现象会导致多段记录会同一个句子出现,多段记录的字段共用同一个实体,此现象难于正常文本的抽取。而相关技术中的文本抽取方法不能考虑同一段经历中不同字段信息之间的依赖关系,并且很难捕捉句法和语义信息。此外,传统的抽取式问答严重依赖于每个实体提及的位置信息,在不考虑实体span的情况下效果较差。因此,目前亟需一种能够考虑句法和语义信息,可以将各字段之间的依赖关系进行整合表达的方法来实现结构化信息抽取。
发明内容
本申请旨在至少在一定程度上解决相关技术中的技术问题之一。
为此,本申请的第一个目的在于提出一种预训练模型的生成式信息抽取方法,该方法将信息抽取任务视为多轮生成式问答任务,通过考虑字段与字段之间依赖关系设计问题模块,通过多轮问答的形式可以捕获不同字段之间的依赖关系,然后利用给定的上下文文本和问题用生成式预训练模型提取对应字段信息,该方法可以适用于多个字段重叠或某个字段缺失的状况,通过生成式模型生成答案降低了对实体span的依赖,提高了抽取结构化信息的准确性和便捷性。
本申请的第二个目的在于提出一种基于预训练模型的生成式信息抽取方法和装置。
本申请的第三个目的在于提出一种非临时性计算机可读存储介质。
为达上述目的,本申请第一方面实施例提出了一种基于预训练模型的生成式信息抽取方法,包括:
获取结构化信息抽取任务的历史标注数据;
根据所述历史标注数据中每个目标字段之间的依赖关系,生成多轮问题模板,并将所述历史标注数据预处理为多轮问答形式的数据集;
将所述多轮问题模板序列化,并结合所述多轮问答形式的数据集微调预设的生成式训练模型;
将待抽取的文本数据输入至微调后的生成式训练模型中,通过微调后的生成式训练模型生成所述多轮问题模板中每轮问题对应的字段的答案;
将每轮问题的答案形成结构化的数据,并评测所述微调后的生成式训练模型。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京智谱华章科技有限公司,未经北京智谱华章科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111016295.8/2.html,转载请声明来源钻瓜专利网。