[发明专利]融合多任务和多标签学习的司法领域深度事件抽取方法在审
申请号: | 202210078832.X | 申请日: | 2022-01-24 |
公开(公告)号: | CN114580428A | 公开(公告)日: | 2022-06-03 |
发明(设计)人: | 黄杨琛;王立才;郭前进;李孟书;李兴宇 | 申请(专利权)人: | 中国电子科技集团公司第十五研究所 |
主分类号: | G06F40/30 | 分类号: | G06F40/30;G06F40/242;G06F40/211;G06K9/62;G06N3/04;G06N3/08 |
代理公司: | 北京理工大学专利中心 11120 | 代理人: | 高会允 |
地址: | 100083 北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 融合 任务 标签 学习 司法 领域 深度 事件 抽取 方法 | ||
1.一种融合多任务学习和多标签学习的司法领域深度事件抽取方法,其特征在于,包括如下步骤
步骤1:取司法领域数据进行人工标注,所标注的标签包括事件类型和事件元素,获得司法领域数据集;
步骤2:利用中文预训练语言模型BERT在司法领域数据集上,采用Masked LM语言学习模型进行网络调优,学习到适合司法领域知识的网络参数,从而得到司法领域BERT模型,利用所述司法领域BERT模型的输出为文本的语义信息;
步骤3:构建multi-task网络,所述multi-task网络采用所述司法领域BERT模型提取文本的语义信息作为输入,multi-task网络定义包含触发词起始位置预测、触发词结束位置预测以及事件类型预测三个任务共同定义的损失函数进行调优,multi-task网络的输出包括预测的事件类型、预测的触发词起始位置以及预测的触发词结束位置;
步骤4:根据事件类型确定事件要素,构建事件要素抽取模型,所述事件要素抽取模型以司法领域BERT模型提取的文本语义信息为输入,并为每一个事件要素学习专属的网络参数,在每个事件要素对应网络的最后一层,对每一个分词token分别预测是否属于当前事件要素的起始位置或者结束位置。
2.如权利要求1所述的方法,其特征在于,所述利用所述司法领域数据集针对中文预训练语言模型BERT在司法领域数据集上,采用Masked LM语言学习模型进行网络调优,具体为:
在人工标注的司法领域数据集上使用Masked LM对BERT模型的参数进行调优,在训练时采用如下策略,随机选择句子中15%的单词进行Mask,在选择为Mask的单词中,有80%真的使用[Mask]进行替换,10%不进行替换,剩下10%使用一个随机单词替换。
3.如权利要求1所述的方法,其特征在于,所述步骤2具体为:
司法领域事件集合E={E1,...,EN},E1~EN为第1~第N个司法领域事件;司法领域事件对应的文本信息集合为S={S1,...,SN},S1~SN分别为第1~第N个司法领域事件对应的文本信息;BERT模型中的epoch的最大值为Epoches,每个epoch的batch数为batch_per_epoch;BERT基础模型为Bert_base_chinese,每个句子的最大长度为max_len;
针对BERT模型中的所有的epoch,执行如下训练流程得到调优后的BERT模型参数:
针对epoch中的每个batch,执行S1~S4:
S1将输入句子补零或截取到长度为max_len,获取句子分词的索引I1;
S2随机选择句子中15%的单词进行Mask,在选择为Mask的单词中,有80%真的使用[Mask]进行替换,10%不进行替换,剩下10%使用一个随机单词替换;
S3获取Mask后的句子输入到BERT基础模型Bert_base_chinese中,获得特征向量,后接θ0预测句子每个位置对应的分词的索引I2;
S4使用Adam优化器最小化I1与I2之间的差异,定义为第一损失函数L(θ,θ0);当验证集上的第一损失函数在一定epoch内不再下降时采取early stopping策略。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国电子科技集团公司第十五研究所,未经中国电子科技集团公司第十五研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210078832.X/1.html,转载请声明来源钻瓜专利网。