[发明专利]一种快速启动的交互式关系标注与抽取框架在审
申请号: | 202111474423.3 | 申请日: | 2021-12-03 |
公开(公告)号: | CN114118092A | 公开(公告)日: | 2022-03-01 |
发明(设计)人: | 李学恺;漆桂林 | 申请(专利权)人: | 东南大学 |
主分类号: | G06F40/295 | 分类号: | G06F40/295;G06F16/36;G06F16/28;G06K9/62;G06N3/08 |
代理公司: | 南京众联专利代理有限公司 32206 | 代理人: | 杜静静 |
地址: | 211135 江苏省南京市*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 快速 启动 交互式 关系 标注 抽取 框架 | ||
本发明涉及一种快速启动的交互式关系标注与抽取框架,包括以下步骤:S1:使用通用命名实体识别数据集对命名实体识别模型进行预训练;S2:使用通用关系抽取数据集对少样本关系抽取模型进行预训练;S3:设定待抽取关系和少量标注数据;S4:对待抽取文本进行数据预处理;S5:使用命名实体识别模型对待抽取文本进行命名实体识别;S6:对实体进行人工配对;S7:对配对结果进行初步关系抽取;S8:对关系抽取结果进行人工校对;S9:对少样本关系抽取模型进行微调;S10:重复S4到S9直到所有的待抽取文本均处理完成。该方案克服现有启动成本高昂和重人力成本投入的缺点,实现具有快速启动和低人工成本特性的关系标注和抽取。
技术领域
本发明涉及一种以人机交互为基础,快速启动的交互式关系标注与抽取框架,属于计算机人工智能以及自然语言处理技术领域。
背景技术
关系抽取是信息抽取领域的重要子任务,在知识图谱、对话系统和知识问答系统的构建等多个应用场景中起到关键作用,在医疗、军事、金融等领域也具有广泛的应用价值。关系抽取的主要目标是从文本中抽取出主、谓、宾的三元组结构,或头、关系、尾。关系抽取的常见形式是输入一段文本和其涉及的两个实体,判断文本内容是否描述了两个实体之间存在的关系,并推断出存在何种关系。
在过去的研究中,监督学习关系抽取方法取得了不错的效果。但监督学习方法本身依赖于大量的标注数据,这些标注数据的获得往往需要耗费极大的人力物力,这使得监督学习方法在实际业务落地中的冷启动成本非常高昂,难以普及。此外,监督学习方法的可迁移性也较差,例如用通用领域语料训练出来的监督学习关系抽取模型,很难应用于特定领域。因此,监督学习关系抽取方法在实际应用落地中存在诸多问题。
少样本学习技术是一种解决冷启动数据需求问题的有效方法。元学习技术是少样本学习技术中的一类重要技术,利用元学习可对关系抽取任务进行预训练,从而获得关系抽取模型的一套初始化参数。这一套初始化参数能够利用少数训练数据进行快速收敛,从而解决关系抽取任务中的冷启动数据需求问题。
主动学习技术被广泛用于降低标注成本,且在计算机视觉领域取得了较好的效果。主动学习技术通过计算机器学习过程中的指标,获取较难分类的数据样本。然后人工对这些样本进行校对和审核,并将校对后数据重新用于机器学习模型的训练,从而提升机器学习模型的性能,并降低标注的数据量。
发明内容
本发明正是针对现有技术中存在的问题,提供一种快速启动的交互式关系标注与抽取框架,该技术方案提出了利用人工校对信息降低标注数据并提升模型性能的主动学习技术,结合了少样本关系抽取技术以提升模型的冷启动性能,基于本发明公布的框架,可有效克服现有关系抽取系统冷启动成本高昂和重人力成本投入的缺点,实现具有快速启动和低人工成本特性的关系标注和抽取系统。
为了实现上述目的,本发明的技术方案如下,一种快速启动的交互式关系标注与抽取框架,包括以下步骤:
S1:使用通用命名实体识别数据集对命名实体识别模型进行预训练;
S2:使用通用关系抽取数据集对少样本关系抽取模型进行预训练;
S3:设定待抽取关系和少量标注数据;
S4:对待抽取文本进行数据预处理;
S5:使用命名实体识别模型对待抽取文本进行命名实体识别;
S6:对实体进行人工配对;
S7:对配对结果进行初步关系抽取;
S8:对关系抽取结果进行人工校对;
S9:对少样本关系抽取模型进行微调;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于东南大学,未经东南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111474423.3/2.html,转载请声明来源钻瓜专利网。